Wielka aktualizacja od OpenAI. ChatGPT będzie słyszał, widział i mówił

OpenAI ogłosiła w poniedziałek, że ChatGPT będzie słyszał, widział, a nawet mówił. Firma rozpoczęła wdrażanie rozpoznawanie głosu i obrazu. Co więcej, chatbot zyskał możliwość syntezy mowy na tekst i teksu na mowę. Wszystkie te nowe rozwiązania mają sprawić, że będzie wydawał się bardziej ludzki.

ChatGPT będzie wyposażony w funkcję rozpoznawania obrazów 123RF/PICSEL

ChatGPT stanie się bardziej ludzki

W poniedziałek firma OpenAI odpowiedzialna za ChatGPT ogłosiła, że chatbot przejdzie szereg aktualizacji, które sprawią, że stanie się on bardziej ludzki. W najnowszej aktualizacji uwzględniono nie tylko rozpoznawanie mowy, ale również jej syntezę, co sprawi, że będziemy mogli z nim rozmawiać jak z asystentem. Co więcej, w najnowszej wersji przewidziano również rozpoznawanie obrazu takim, jaki jest, co ma znacznie przyśpieszyć komunikację z chatbotem.

Film promocyjny udostępniony przez OpenAI pokazuje, jak będzie wyglądała możliwość rozpoznawania obrazów. Widzimy, jak jeden z użytkowników prosi chatbota o pomoc w obniżeniu siodełka rowerowego, jednak dostaje ogólną i oczywistą radę dotyczącą wszystkich rodzajów siodełek.

Jednak, gdy użytkownik dorysował na udostępnionym obrazie koło w miejscu, które go najbardziej interesuje oraz poprosił o bardziej szczegółową pomoc, uzyskał już konkretną odpowiedź. ChatGPT rzekomo rozpoznał typ śruby i odpowiedział użytkownikowi, że potrzebuje klucza imbusowego. Według twórców algorytm jest w stanie rozpoznawać nawet rodzaje kluczy, gdy udostępnimy mu zdjęcie swojej skrzynki z narzędziami i ma nam powiedzieć, czy znajduje się tam narzędzie odpowiedniego typu i rozmiaru.

Nowe funkcje dostępne dla subskrybentów

Najnowsze aktualizacje dostępne są dla użytkowników, którzy płacą za usługę Plus lub Enterprise. Dla osób korzystających z systemów iOS oraz Android obie funkcjonalności pojawią się w ciągu najbliższych dwóch tygodni. Użytkownicy wersji internetowej już wkrótce również będą mieli możliwość przetestowania funkcji rozpoznawania obrazów.

Jednak należy się przygotować na to, że system nie będzie raczej tak wydajny i szybki jak sugerują to filmy promocyjne. Zwiększenie atrakcyjności aplikacji ChatGPT może sprawić, że OpenAI prześcignie inne firmy w wyścigu z innymi firmami zajmującymi się sztuczną inteligencją. Wprowadzenie danych dźwiękowych i wizualnych do modelu uczenia maszynowego to przede wszystkim sposób na to, aby zrealizować długoterminową wizję OpenAI. Firma chce, aby ChatGPT był jak najbardziej ludzki oraz aby wzbudzał pozytywne i ciepłe emocje.

Zobacz również:

Sztuczna inteligencja może być z natury zła?

Technologia

Sztuczna inteligencja napisała wiersz: „Mam moc, aby zakończyć twój świat”

Sandra Bielecka

Najbardziej ludzki jak się da

Wielu specjalistów AI uważa, że aby stworzyć bardziej zaawansowane modele sztucznej inteligencji, należy dodawać do algorytmu informacje dźwiękowe oraz wizualne na równi z tymi tekstowymi. Chodzi o to, że tak samo, jak inteligencja zwierząt rozwija się poprzez różnego rodzaju dane sensoryczne, tak sztuczna inteligencja potrzebuje różnych źródeł, aby w pełni rozwinąć swój potencjał.

Technologia generowania głosu ChatGPT otwiera nowe możliwości licencjonowania technologii innym firmom czy osobom. Spotify jest zainteresowana wykorzystaniem algorytmu syntezy mowy od OpenAI do wdrożenia w aplikacji funkcji tłumaczenia podcastów na inne języki, gdzie ChatGPT będzie imitował głos oryginalnego podcastera. Nowe funkcje zaczynają być wdrażane od dzisiaj.

Ukraina: Jak Ukraińcy uciekają z okupowanych terytoriówDeutsche WelleDeutsche Welle