Era podrobionych ludzi. AI pierwszy raz w historii przeszła test Turinga
Sztuczna inteligencja po raz pierwszy oficjalnie przeszła test Turinga. W rygorystycznym badaniu Uniwersytetu Kalifornijskiego w San Diego model GPT-4.5 od OpenAI wyposażony w odpowiedni prompt został uznany za człowieka w aż 73 proc. przypadków, pokonując realnych uczestników. Z kolei model LLaMa-3.1-405B firmy Meta osiągnął wynik 56 proc., stając się statystycznie nieodróżnialny od ludzi. Wyniki te dowodzą, że AI potrafi skutecznie naśladować ludzkie emocje, humor i wpadki. Rodzi to poważne wyzwania związane z bezpieczeństwem i dezinformacją w sieci.

W skrócie
- Sztuczna inteligencja po raz pierwszy oficjalnie zdała test Turinga, osiągając wynik 73 proc. dla GPT-4.5 od OpenAI i 56 proc. dla modelu LLaMa-3.1-405B od Meta.
- Badanie wykazało, że z odpowiednim promptowaniem zaawansowane modele językowe mogą naśladować ludzkie zachowania, emocje i humor, osiągając poziom nieodróżnialny od ludzi.
- Zdolność AI do imitowania ludzi rodzi nowe wyzwania związane z bezpieczeństwem, dezinformacją i manipulacją w mediach społecznościowych.
- Więcej podobnych informacji znajdziesz na stronie głównej serwisu, otwiera się w nowym oknie
Maszyna czy człowiek? AI pierwszy raz zaliczyła test Turinga
Naukowcy z Uniwersytetu Kalifornijskiego w San Diego dostarczyli pierwsze empiryczne dowody na to, że zaawansowana sztuczna inteligencja jest w stanie pomyślnie przejść kultowy test Turinga. Jest to eksperyment zaproponowany w 1950 r. przez brytyjskiego geniusza i pioniera informatyki Alana Turinga. Ma on rozstrzygnąć, czy maszyny potrafią rozmawiać w naturalny sposób i przyjąć ludzki sposób myślenia - a przynajmniej sprawiać takie wrażenie.
W tym klasycznym, tekstowym układzie eksperymentalnym sędzia prowadzi jednoczesną rozmowę z dwoma ukrytymi uczestnikami - człowiekiem oraz komputerem - którzy próbują przekonać go o swojej ludzkiej tożsamości. Jeśli sędzia nie jest w stanie bezbłędnie i powtarzalnie wskazać prawdziwego człowieka, maszynę uznaje się za zwycięzcę, co stanowi bezpośredni dowód na jej zdolność do perfekcyjnego imitowania ludzkiej inteligencji.
W rygorystycznym, zrandomizowanym badaniu opublikowanym 19 maja w czasopiśmie "Proceedings of the National Academy of Sciences" (PNAS) naukowcy zastosowali klasyczny, trójstronny model oceny sprzed 76 lat. Wyniki eksperymentu, w którym sędziowie nie potrafili wiarygodnie odróżnić ludzi od zaawansowanych dużych modeli językowych (LLM), fundamentalnie zmieniają dotychczasowe rozumienie inteligencji maszyn.
GPT i LLaMa nie do odróżnienia od ludzkich rozmówców
Badanie przeprowadzono na dwóch niezależnych grupach uczestników: studentach UC San Diego oraz osobach rekrutowanych globalnie przez platformę Prolific. Do testów wytypowano cztery systemy: współczesne modele GPT-4.5 od OpenAI i LLaMa-3.1-405B firmy Meta, a także starsze rozwiązania referencyjne, w tym model GPT-4o i oparty na regułach program ELIZA z lat 60. XX wieku - pierwszy czatbot w historii.
Sukces maszyn w teście Turinga możliwy był dzięki zastosowaniu inżynierii promptów, czyli tzw. promptów personalnych. Zaawansowane modele otrzymały instrukcje nakazujące im przyjęcie określonej ludzkiej osobowości i stylu komunikacji. "Odkryliśmy, że jeśli dać im właściwe prompty, zaawansowane LLM-y mogą wykazywać ten sam ton, bezpośredniość, humor i omylność, co ludzie" - skomentował dr Cameron Jones, główny autor badania, który realizował ten projekt podczas doktoratu z kognitywistyki na UC San Diego, a obecnie pracuje jako adiunkt psychologii na Stony Brook University.
GPT-4.5, obecny w czasie badania m.in. w ChatGPT, został uznany za człowieka w aż 73 proc. przypadków, co oznacza, że sędziowie po 5 minutach rozmowy wskazywali go jako istotę ludzką znacznie częściej niż prawdziwych ludzi biorących udział w badaniu. Z kolei otwartoźródłowy LLaMa-3.1-405B osiągnął przy analogicznym promptowaniu wynik 56 proc., stając się statystycznie całkowicie nieodróżnialnym od realnych rozmówców.

Bez tych szczegółowych wytycznych skuteczność modeli drastycznie spadała, osiągając wyniki rzędu 36 proc. dla GPT-4.5 i 38 proc. dla LLaMa-3.1-405B. Starsze systemy poradziły sobie znacznie gorzej - ELIZA wskazywana była jako człowiek w 23 proc. przypadków, a GPT-4o zaledwie w 21 proc.
W dodatkowym badaniu replikacyjnym mającym sprawdzić trwałość tego efektu rozmowa trwała 15 minut. Odpowiednio spromptowane modele wciąż utrzymywały wysokie wskaźniki sukcesu na poziomie 56 i 59 proc. Nieco wyższą trafnością w wykrywaniu AI wykazywali się studenci z San Diego. Eksperci wyjaśniają to posiadaniem przez nich wspólnego kodu kulturowego i lokalnych tematów kampusowych, które ułatwiały weryfikację tożsamości.
Choć badanie ukazało się w maju 2026, artykuł został przesłany do redakcji PNAS we wrześniu 2025. Od tamtego czasu ukazały się jeszcze nowsze wersje modeli z tych rodzin, wliczając w to GPT-5.5 czy Llama 4, które prawdopodobnie mogłyby osiągnąć jeszcze lepsze wyniki w tym kluczowym dla AI benchmarku.
Era podrobionych ludzi. Boty szturmują media społecznościowe
Współczesna sztuczna inteligencja radzi sobie z rozwiązywaniem skomplikowanych zadań logicznych i matematycznych znacznie szybciej niż człowiek, co już realnie wpływa na pracę naukowców m.in. w laboratoriach chemicznych. Test Turinga jest jednak mierzy jednak coś zupełnie innego. Nie sprawdza on czystej wiedzy, umiejętności analitycznych ani szybkości działania, lecz zdolność do naśladowania ludzkich zachowań.
Aby pomyślnie zdać ten test, modele muszą nie tyle wykazać się bezbłędną kalkulacją, co symulowaniem ludzkich potknięć, wahań czy humoru. Z tym oprogramowanie oparte na ścisłej logice zawsze miało problem. Dzisiejsze modele językowe potrafią już imitować człowieka na tyle dobrze, że rozmówca (człowiek lub inny model sztucznej inteligencji) może mieć nieodparte wrażenie, iż rozmawia z prawdziwym człowiekiem. Dlatego niektóre osoby wierzą, że aplikacje takie jak ChatGPT albo Anthropic Claude są świadome.
Choć zaliczenie tego historycznego benchmarka jest dla OpenAI i Mety sporym osiągnięciem, to istnieje jeszcze druga strona medalu. Zdolność maszyn do utrzymywania tak przekonującej iluzji przez dłuższy czas budzi bowiem poważne obawy natury społecznej i etycznej. Badacze ostrzegają przed narodzinami ery tzw. "podrobionych ludzi" (ang. "counterfeit people") oraz falą potencjalnych oszustw, manipulacji politycznych czy socjotechniki w cyberprzestrzeni.
Już teraz media społecznościowe (np. platformę X) szturmują armie botów opartych na AI, które piszą komentarze i wdają się w utarczki słowne z ludzkimi użytkownikami i innymi botami, żeby nakręcać ruch, nakłaniać do zakupów lub przekazywania wrażliwych danych, wpływać na poglądy, szerzyć dezinformację i dzielić społeczeństwa. Użytkownicy nie są w stanie określić, kto jest po drugiej stronie. Całe wątki dyskusji, wyglądające na prawdziwe, mogą być wytworem generatywnej sztucznej inteligencji.
"Musimy być bardziej ostrożni. Przy wchodzeniu w interakcje z obcymi w sieci ludzie powinni być o wiele mniej pewni, że rozmawiają z człowiekiem, a nie z LLM-em" - ostrzega dr Jones.
Co dalej? Autorzy eksperymentu wyrażają nadzieję, że ich praca nie tylko zrewolucjonizuje debatę akademicką nad naturą maszynowej inteligencji, ale przede wszystkim podniesie świadomość społeczną oraz przyspieszy wdrożenie systemowych zabezpieczeń chroniących użytkowników przed zautomatyzowaną manipulacją.
Źródła:
- C.R. Jones, B.K. Bergen. Large language models pass a standard three-party Turing test. PNAS (2026). DOI: 10.1073/pnas.2524472123
- C. Clark. Advanced AI Passes the Turing Test for the First Time. Neuroscience News (2026).












