Wielka aktualizacja od OpenAI. ChatGPT będzie słyszał, widział i mówił

OpenAI ogłosiła w poniedziałek, że ChatGPT będzie słyszał, widział, a nawet mówił. Firma rozpoczęła wdrażanie rozpoznawanie głosu i obrazu. Co więcej, chatbot zyskał możliwość syntezy mowy na tekst i teksu na mowę. Wszystkie te nowe rozwiązania mają sprawić, że będzie wydawał się bardziej ludzki.

ChatGPT będzie wyposażony w funkcję rozpoznawania obrazów
ChatGPT będzie wyposażony w funkcję rozpoznawania obrazów 123RF/PICSEL

ChatGPT stanie się bardziej ludzki

W poniedziałek firma OpenAI odpowiedzialna za ChatGPT ogłosiła, że chatbot przejdzie szereg aktualizacji, które sprawią, że stanie się on bardziej ludzki. W najnowszej aktualizacji uwzględniono nie tylko rozpoznawanie mowy, ale również jej syntezę, co sprawi, że będziemy mogli z nim rozmawiać jak z asystentem. Co więcej, w najnowszej wersji przewidziano również rozpoznawanie obrazu takim, jaki jest, co ma znacznie przyśpieszyć komunikację z chatbotem.

Film promocyjny udostępniony przez OpenAI pokazuje, jak będzie wyglądała możliwość rozpoznawania obrazów. Widzimy, jak jeden z użytkowników prosi chatbota o pomoc w obniżeniu siodełka rowerowego, jednak dostaje ogólną i oczywistą radę dotyczącą wszystkich rodzajów siodełek.

Jednak, gdy użytkownik dorysował na udostępnionym obrazie koło w miejscu, które go najbardziej interesuje oraz poprosił o bardziej szczegółową pomoc, uzyskał już konkretną odpowiedź. ChatGPT rzekomo rozpoznał typ śruby i odpowiedział użytkownikowi, że potrzebuje klucza imbusowego. Według twórców algorytm jest w stanie rozpoznawać nawet rodzaje kluczy, gdy udostępnimy mu zdjęcie swojej skrzynki z narzędziami i ma nam powiedzieć, czy znajduje się tam narzędzie odpowiedniego typu i rozmiaru.

Nowe funkcje dostępne dla subskrybentów

Najnowsze aktualizacje dostępne są dla użytkowników, którzy płacą za usługę Plus lub Enterprise. Dla osób korzystających z systemów iOS oraz Android obie funkcjonalności pojawią się w ciągu najbliższych dwóch tygodni. Użytkownicy wersji internetowej już wkrótce również będą mieli możliwość przetestowania funkcji rozpoznawania obrazów.

Jednak należy się przygotować na to, że system nie będzie raczej tak wydajny i szybki jak sugerują to filmy promocyjne. Zwiększenie atrakcyjności aplikacji ChatGPT może sprawić, że OpenAI prześcignie inne firmy w wyścigu z innymi firmami zajmującymi się sztuczną inteligencją. Wprowadzenie danych dźwiękowych i wizualnych do modelu uczenia maszynowego to przede wszystkim sposób na to, aby zrealizować długoterminową wizję OpenAI. Firma chce, aby ChatGPT był jak najbardziej ludzki oraz aby wzbudzał pozytywne i ciepłe emocje.

Najbardziej ludzki jak się da

Wielu specjalistów AI uważa, że aby stworzyć bardziej zaawansowane modele sztucznej inteligencji, należy dodawać do algorytmu informacje dźwiękowe oraz wizualne na równi z tymi tekstowymi. Chodzi o to, że tak samo, jak inteligencja zwierząt rozwija się poprzez różnego rodzaju dane sensoryczne, tak sztuczna inteligencja potrzebuje różnych źródeł, aby w pełni rozwinąć swój potencjał.  

Technologia generowania głosu ChatGPT otwiera nowe możliwości licencjonowania technologii innym firmom czy osobom. Spotify jest zainteresowana wykorzystaniem algorytmu syntezy mowy od OpenAI do wdrożenia w aplikacji funkcji tłumaczenia podcastów na inne języki, gdzie ChatGPT będzie imitował głos oryginalnego podcastera. Nowe funkcje zaczynają być wdrażane od dzisiaj.

Ukraina: Jak Ukraińcy uciekają z okupowanych terytoriówDeutsche Welle
INTERIA.PL
Masz sugestie, uwagi albo widzisz błąd?
Dołącz do nas