Robot, który osiągnął doskonałą mimikę. Ćwiczył przed lustrem tysiące godzin
Roboty humanoidalne, które wyglądają bardzo podobnie do człowieka, ale poruszają się w sposób lekko nienaturalny, budzą u wielu osób instynktowny lęk i niepokój. Zjawisko to nazywane jest doliną niesamowitości. Czy można mu zapobiec? Naukowcy z Columbia University podjęli to wyzwanie i zaprezentowali światu robota EMO, który nauczył się poruszać ustami z precyzją, która do tej pory była zarezerwowana wyłącznie dla ludzi. Jego mimika opiera się na złożonym systemie silników i sztucznej inteligencji. Przedsięwzięcie opisano w prestiżowym czasopiśmie Science Robotics.

Spis treści:
- Dolina niesamowitości. Niepokój na widok realistycznego robota
- Patrz mu na usta. Robot EMO ma niemal idealną mimikę
- Roboty humanoidalne będą nie do odróżnienia od ludzi?
Dolina niesamowitości. Niepokój na widok realistycznego robota
Wiele osób odczuwa dyskomfort, niepokój i lęk, patrząc na roboty, które mocno przypominają ludzi, ale jednak jest z nimi coś nie tak. Mogą poruszać się i zachowywać w lekko dziwaczny sposób. Gdy robot jest wierną kopią człowieka (a takich praktycznie nie ma w świecie rzeczywistym) lub gdy to podobieństwo jest znikome, te uczucia znikają. Zjawisko zyskało nazwę "dolina niesamowitości" (ang. "uncaney valley"). Dotyczy ono nie tylko robotów antropomorficznych, ale również rysunków i animacji.
Twórcy robotów starają się zniwelować nieprzyjemne odczucia. Najprościej jest oczywiście tworzyć maszyny tylko symbolicznie przypominające ludzi. Gdy jednak budowniczym zależy na wysokim realizmie wyglądu, trzeba też zadbać o odpowiednie zachowanie. Naukowcy z Columbia University podjęli się tego wyzwania w ramach projektu EMO. Ich dziełem jest nie tyle pełnowymiarowy robot humanoidalny, co raczej robotyczna twarz o niezrównanych zdolnościach mimicznych, dotąd zarezerwowanych praktycznie tylko dla ludzi.
Fundamentem sukcesu tego projektu okazało się odejście od tradycyjnego programowania opartego na sztywnych regułach i instrukcjach. Zamiast tego inżynierowie pozwolili robotowi uczyć się w sposób, który przypomina procesy zachodzące u dzieci poznających własne ciało, szczególnie w tzw. fazie lustra, gdy dziecko uczy się rozumieć własne odbicie i rozpoznawać siebie jako odrębną istotę. EMO posiada elastyczną twarz pokrytą silikonową skórą, pod którą kryje się 26 zaawansowanych silników mimicznych. Dysponują one aż 10 stopniami swobody, co pozwala generować niezwykle złożone ruchy.
Nie jest to przedsięwzięcie czysto mechaniczne. W grę wchodzi sztuczna inteligencja i uczenie maszynowe. By nauczyć się przybierać konkretny wyraz twarzy, EMO spędził tysiące godzin przed lustrem. Obserwując swoje odbicie w lustrze, robot uczył się, jak subtelne napięcie silników wpływa na układ jego silikonowych warg i policzków. Ten proces autooobserwacji pozwolił mu na stworzenie wewnętrznej mapy zależności między fizycznym ruchem a wizualnym efektem końcowym.
Patrz mu na usta. Robot EMO ma niemal idealną mimikę
Za myślenie w tym projekcie odpowiada model AI typu vision-to-action (VLA). To zaawansowany model językowy, który przekłada dane wizualne bezpośrednio na skoordynowane działania fizyczne. To jednak nie koniec. Po etapie nauki przed lustrem inżynierowie wystawili robota na kontakt z prawdziwą ludzką mową. EMO analizował niezliczone godziny nagrań na YouTube, obserwując ludzi mówiących i śpiewających w różnych językach. Robot nie musiał rozumieć znaczenia wypowiadanych słów. Jego zadaniem było jedynie powiązanie dźwięków z ruchami mięśni twarzy, które wcześniej ćwiczył przed lustrem. Efekt okazał się zdumiewający. Maszyna nauczyła się niemal idealnie synchronizować ruch warg z dźwiękiem w 10 różnych językach.
Mimo imponujących rezultatów nie obyło się bez przeszkód. Jak zauważył profesor Hod Lipson, dyrektor Creative Machines Lab na Columbia University, robotyczne usta miały pewne problemy z wymawianiem głosek. "Mieliśmy szczególne trudności z twardymi dźwiękami takimi jak 'B' oraz z dźwiękami obejmującymi marszczenie ust, takimi jak 'W'. Te umiejętności najpewniej się jednak poprawią z upływem czasu i dalszą praktyką" - wyjaśnia ekspert. Podobnie jak wiele dzisiejszych technologii opartych na machine learningu, EMO nie jest ostatecznym produktem, lecz dynamicznie rozwijającym się projektem. Zawsze można zrobić coś lepiej, zwłaszcza gdy stale napływają nowe dane.
Jak przekonujący jest EMO? Naukowcy postanowili to zbadać z udziałem 1300 wolontariuszy. Porównali oni model VLA z dwiema innymi, powszechnie stosowanymi metodami sterowania ustami robota. Jedna opierała się tylko na amplitudzie dźwięku, a usta poruszały się w niej mocniej, gdy głos był głośniejszy. Druga wykorzystywała technikę naśladowania punktów orientacyjnych na twarzy, kopiując ruchy innych osób przypisane do podobnych dźwięków. Uczestnicy eksperymentu mieli polecenie wskazać, który model najbardziej przypomina naturalny ruch ludzkich ust. Wyniki były jednoznaczne: model VLA zastosowany w EMO został wybrany w ponad 62% przypadków, deklasując starsze technologie, które zdobyły odpowiednio 23% i 14% głosów.
Roboty humanoidalne będą nie do odróżnienia od ludzi?
Znaczenie tych badań wykracza daleko poza samą robotykę i jest czymś więcej niż pokazem możliwości technicznych. Dotykają one głębokich aspektów psychologii komunikacji. Badania eyetrackingowe z 2021 r. (okulografia, śledzenie ruchów gałek ocznych) dowodzą, że podczas rozmowy ludzie poświęcają przeciętnie aż 87% czasu na patrzenie na twarz rozmówcy, z czego znaczna część skupiona jest bezpośrednio na ustach. Ruchy warg nie pomagają w zrozumieniu słów i wpływają na to, co słyszymy. Gdy są nierealistyczne, możemy nie tylko ulec efektowi doliny niesamowitości, ale także czuć zażenowanie - jak podczas oglądania filmu z kiepskim dubbingiem.
To osiągnięcie podkreśla również wagę tego kierunku rozwoju robotyki humanoidalnej, który dotąd traktowany był trochę po macoszemu. Inżynierowie skoncentrowali się przeważnie na sprawności rąk i nóg, wliczając w to chodzenie, chwytaniu przedmiotów, a nawet robienie salt. Twarze robotów były zaś zaniedbywane. A to błąd, bowiem w każdej dziedzinie, w której maszyna ma bezpośrednio współpracować z człowiekiem, to właśnie ekspresja twarzy i zdolność do wyrażania emocji są kluczowe dla budowania zaufania i skutecznej wymiany informacji. Mniejszy dyskomfort czujemy w rozmowie z ChatGPT, normalnie pozbawionym jakiegokolwiek wizerunku, niż w obecności robota, który wygląda jak człowiek, ale zachowuje się dziwnie.
Roboty humanoidalne z bogatą mimiką twarzy, takie jak EMO, mogą znaleźć zastosowanie w sektorach wymagających empatii i stałego kontaktu z ludźmi, takich jak edukacja, opieka medyczna czy pomoc osobom starszym. "Roboty z tą umiejętnością bez wątpienia będą miały wyższą zdolność do nawiązywania kontaktu z ludźmi, jako że znaczna część naszej komunikacji opiera się na mowie ciała i twarzy, a ten kanał pozostaje wciąż niewykorzystany" - skomentował główny autor badania, Yuhang Hu z Columbia University.
Eksperci robotyki z Nowego Jorku nie są odosobnieni w swoich wysiłkach. Inni także pracują nad różnymi aspektami realizmu. Niewątpliwe osiągnięcia na tym polu ma chińska firma AheadForm, która zaprezentowała niezwykle realistyczną twarz robota, o której pisaliśmy w październiku 2025. Z kolei japońscy naukowcy opracowali samonaprawiającą się sztuczną skórę, która ma nadać maszynom teksturę i wygląd niemal nieodróżnialny od ludzkiej tkanki.
Wszystkie te innowacje mogą sprawić, że w przyszłości trudno nam będzie rozpoznać robota na podstawie rozmowy czy krótkiej obserwacji. Może dochodzić do sytuacji jak w Blade Runner czy Fallout 4, w których androidy bądź też "syntki" są praktycznie nie do odróżnienia od ludzi z krwi i kości.
Zobacz również:
Źródła:
- Yuhang Hu et al., Learning realistic lip motions for humanoid face robots. Sci. Robot. 11, eadx3017 (2026). DOI: 10.1126/scirobotics.adx3017
- Columbia Engineering, A Robot Learns to Lip Sync (2026).
- Vehlen, A., Spenthof, I., Tönsing, D. et al. Evaluation of an eye tracking setup for studying visual attention in face-to-face conversations. Sci Rep 11, 2661 (2021). https://doi.org/10.1038/s41598-021-81987-x










