Sztuczna inteligencja generuje ludzkie twarze na podstawie… głosów

Każdy z nas z pewnością próbował kiedyś wyobrazić sobie czyjąś twarzy podczas słuchania jej głosu, np. w czasie trwania audycji radiowej, ale czy mieliśmy szansę trafić blisko oryginału? AI robi to bezbłędnie.

Sztuczna inteligencja generuje ludzkie twarze na podstawie… głosówGeekweek - import

Niekoniecznie, ale najnowsze AI jest w stanie tego dokonać - wystarczy tylko, że posłucha krótkiego fragmentu nagranej wypowiedzi, żeby wygenerować cyfrowy portret danej osoby. A mowa o sztucznej inteligencji nazwanej Speech2Face, która korzysta z sieci neuronowych, dzięki czemu uruchamia procesy podobne do tych zachodzących w ludzkim mózgu. AI było oczywiście trenowane w tym konkretnym celu i przerobiło ponad 100 tysięcy nagrań z ludzkim głosem.

Na tej podstawie sztuczna inteligencja nauczyła się wyłapywać związki między sygnałami dźwiękowymi i konkretnymi cechami fizycznymi ludzkiej twarzy. Teraz wystarczy puścić jej kawałek nagrania, by po pewnym czasie otrzymać fotorealistyczny wizerunek mówiącej osoby - brzmi nieco przerażająco? Spokojnie, jak na razie nie mówimy jeszcze o obrazie w 100% zgodnym z mówcą, ale zachowującym pewne konkretne cechy.

Chodzi na przykład o takie aspekty, jak płeć, wiek i pochodzenie etniczne, czyli cechy dzielone przez wiele osób. Jak twierdzą badacze, w obecnej formie algorytmy sztucznej inteligencji są w stanie generować jedynie przeciętnie wyglądające twarze. Nie ma tu mowy o tworzeniu obrazów konkretnych indywidualności. I chociaż część wizerunków jest mocno niedoskonała, to patrząc na efekty uzyskiwane przez AI, trudno nie być pod wrażeniem jego możliwości, szczególnie w przyszłości, bo jak wiemy z czasem będzie tylko skuteczniejsze w swoich dziełach.

Trzeba jednak odnotować również pewne wady AI, które należy wyeliminować, np. kiedy Azjata mówi po chińsku, program generuje azjatycki wizerunek, ale kiedy ten sam człowiek mówi po angielsku, to generowany obraz przedstawia białego mężczyznę. Pewnym problemem są też wysokie głosy męskie i niskie żeńskie, ale wynikać ma to z ograniczonego zakresu głosów wykorzystanych do szkolenia.

Źródło: GeekWeek.pl/livescience