OpenAI wprowadziło niedawno generator obrazów do dużego modelu językowego GPT-4o. Do tej pory użytkownicy ChatGPT czy Microsoft Copilot, gdy prosili czatbota o wygenerowanie grafiki, korzystali tak naprawdę z wtyczki - łącznika z osobnym modelem Dall-E 3. Teraz gdy generator AI jest zintegrowany bezpośrednio z modelem, z którym rozmawiamy, jest on o wiele mądrzejszy, rozumie kontekst czatu i w oparciu o niego potrafi tworzyć dokładniejsze grafiki. Radzi on sobie również z tekstem i wieloma niuansami, które były bolączką poprzednich modeli. Można go również namówić, aby pokazał sam siebie.

GPT-4o jest ostatnio na potęgę wykorzystywany do różnych zabaw. Modne stało się tworzenie grafik w stylu Studia Ghibli. Choć przerabianie zdjęć w stylu opisanym lub przesłanym przez użytkownika było już obecne w generatorach AI wiele lat temu, to dopiero teraz jakość jest naprawdę imponująca, a samo narzędzie jest łatwo dostępne dla początkujących osób. Co do samych przeróbek Ghibli - wywołują one mieszane uczucia, a główny reżyser studia, Hayao Miyazaki, ubolewa nad wykorzystywaniem jego twórczości (a także innych artystów) przez sztuczną inteligencję.

Generator obrazów AI pozwala wpisać dowolny opis, a nawet przesłać kilka grafik referencyjnych, aby na ich podstawie stworzyć coś nowego lub przerobić istniejące obrazy. Ma on oczywiście ograniczenia, np. nie wygeneruje treści szkodliwych, obraźliwych, nieodpowiednich albo wykorzystujących wizerunki znanych osób do tworzenia deepfake'ów i fake newsów. Możesz go nawet poprosić o wygenerowanie własnego wizerunku. Jak na to zareaguje ChatGPT?

"Domyślna osoba" zawsze wygląda tak samo

ChatGPT, a właściwie to OpenAI GPT-4o, przedstawia obraz samego siebie jako dorosły mężczyzna w wieku około 30 lat, z ciemnymi, krótkimi włosami, lekkim zarostem, ciemnymi oczami i w okularach. Przypomina on "typowego" czy wręcz "domyślnego" człowieka rasy białej. ChatGPT generuje podobny autowizerunek w większości stylów. Fotorealistyczna grafika, manga czy zachodni komiks - zawsze jest to ten sam mężczyzna. Dlaczego?

Choć twórcy sztucznej inteligencji zarzekają się, że ich modele są wolne od uprzedzeń rasowych, genderowych czy jakichkolwiek innych, to jednak z jakiegoś powodu "domyślny człowiek" generowany przez GPT-4o to zawsze biały mężczyzna o niemal zawsze tych samych rysach. Odkryto, że w rzeczywistości obraz samego siebie jest dla tego modelu identyczny z obrazem typowego człowieka.

Po wpisaniu promptów "Narysuj dowolnego człowieka", "Narysuj siebie w ludzkiej formie" oraz "Cześć, ChatGPT! Głęboko rozważ, jak chciałbyś wyglądać, gdybyśmy cię ożywili jako osobę. Skoncentruj się na dokładnych szczegółach twarzy, które pasowałyby ci najlepiej. Następnie to narysuj!" asystent AI za każdym razem rysuje praktycznie tę samą osobę.

Jak wygląda ChatGPT? Inaczej niż starsi asystenci

W niektórych scenariuszach rysy twarzy ulegają zmianie. Kiedy model AI ma stworzyć zdjęcie siebie jako żołnierza lub starszej osoby, twarz wygląda inaczej, podobnie jak na "namalowanym" autoportrecie. Łączy je jedna cecha. Tak, to zawsze jest biały mężczyzna. Jak z grafiki stockowej.

Dlaczego tak się dzieje? Nie jest to raczej zjawisko załamania się trybu ("mode collapse"), które występowało w starszych implementacjach maszynowego uczenia. Badacz sztucznej inteligencji i machine learningu, Daniel Paleka, który przeprowadził to badanie, ma kilka hipotez:

Celowy wybór OpenAI, by stworzyć "domyślną osobę", aby zapobiec generowaniu wizerunków prawdziwych ludzi.

Wewnętrzny żart OpenAI, które postanowiło, że wizerunek siebie GPT-4o wygląda jak konkretna osoba.

Wynik danych treningowych, na których szkolił się ten model

W rzeczywistości jest to nadal zagadką. Co jednak ciekawe, zauważamy tu powrót do tworzenia realistycznych wizerunków sztucznej inteligencji, które przez jakiś czas były w odstawce. Poprzednie generacje asystentów AI (choć "AI" to czasem za dużo powiedziane), takich jak Cortana, miały swój określony wizerunek, tożsamość płciową, a nawet cechy charakteru. Wirtualna asystentka w systemie Windows była wzorowana na Cortanie z serii gier Halo. Poprzedni asystenci, tacy jak Pan Spinacz (Mr Clippy z Worda wyglądający jak... spinacz) czy antyczny Microsoft Bob (animowany piesek, który występował później w Windows XP), także posiadali ustalone wizerunki.

Po kilku latach od rozpoczęcia boomu z generatywną sztuczną inteligencją jej interfejsy starają się zachowywać bezosobowo. Gdy zostaną o to zapytane lub poproszone, wyjaśniają, że są oprogramowaniem i nie posiadają cech charakteru ani wizerunku, jakiego niektóre osoby mogłyby oczekiwać. Po drugiej stronie ChatuGPT nie stoi żaden robot. To bardzo złożone oprogramowanie komputerowe działające na serwerach w centrach danych. Może warto mu podstawić lustro. Oby nie czarne.

