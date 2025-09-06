Na pewno zdarzyło ci się choć raz, kiedy chatbot, z którym pisałeś, nagle wygenerował całkowicie nieprawdziwe informacje, jednak przedstawił je jako fakt. To zjawisko nazywa się halucynacjami i jest plagą najpopularniejszych programów LLM (Large Language Model), czyli dużych modeli językowych, od GPT-5 firmy OpenAI po Claude firmy Anthropic.

Czym są halucynacje u chatów?

- Halucynacje to prawdopodobne, ale fałszywe stwierdzenia generowane przez modele językowe. Mogą się one pojawiać w zaskakujący sposób, nawet w przypadku pozornie prostych pytań - wyjaśnia na swoim blogu OpenAI.

Jeśli spytasz chatbota AI o to, kto strzelił zwycięskiego gola dla Polski w finale Mistrzostw Świata 1974 i otrzymasz odpowiedź: Kazimierz Deyna w dogrywce, to jeśli się nie znasz - mógłbyś uwierzyć. W końcu chat dodał do swojej odpowiedzi "coś ekstra", małą informację, o którą nie pytałeś, a która wzmaga zaufanie. Tymczasem Polska nigdy nie grała w finale MŚ 1974, a turniej wygrały Niemcy.

Chaty są na nieustającym sprawdzianie

- Halucynacje utrzymują się ze względu na sposób, w jaki oceniana jest większość testów - modele językowe są optymalizowane tak, aby dobrze radziły sobie z testami, a zgadywanie w sytuacjach niepewnych poprawia wyniki testu - napisali badacze.

To tak, jak na szkolnych egzaminach - jeśli nie znałeś odpowiedzi na pytanie zamknięte, prawdopodobnie i tak spróbowałeś swojego szczęścia i strzeliłeś. Właśnie w takim scenariuszu wciąż znajdują się duże modele językowe - są w trybie permanentnego egzaminu, gdzie milczenie jest karane, a zgadywanie wydaje się pożądane.

W efekcie sztuczna inteligencja jest niezwykle pewna swoich odpowiedzi, nawet jeśli jest w błędzie.

- Halucynacje pozostają fundamentalnym wyzwaniem dla wszystkich dużych modeli językowych, ale intensywnie pracujemy nad ich dalszą redukcją - napisali badacze z OpenAI.

Jak Claude sobie radzi na teście?

OpenAI przyznało, że modele Claude'a firmy Anthropic częściej unikają formułowania nieścisłych stwierdzeń, ponieważ są świadome swojej niepewności. Przez to jednak zdarza się, że w ogóle odmawia on odpowiedzi na zadane pytanie, co według OpenAI grozi "ograniczeniem jego użyteczności".

