Bardziej wyrafinowane modele AI częściej kłamią. Nowe badanie

W badaniu opublikowanym na łamach Nature grupa naukowców starała się wyjaśnić,dlaczego ChatGPT i inne duże modele językowe mają tendencję do udzielania dobrze sformułowanych, lecz całkowicie błędnych odpowiedzi.

Według najnowszego badania bardziej dopracowane modele językowe częściej kłamiąNICOLAS MAETERLINCK / BELGA MAG / Belga via AFPAFP

Pierwsze wersje dużych modeli językowych miały niejednokrotnie problem z odpowiedziami na proste pytania z zakresu geografii czy nauk ścisłych. Gdy model nie znał odpowiedzi, po prostu unikał udzielania jej. Dla firm, takich jak OpenAI czy Meta, taka reakcja była jednak niewystarczająca - oczekiwano modeli, które odpowiadają na pytania, a nie milczą. Dlatego też zaczęto pracować nad rozwiązaniem tego problemu.

Pierwszym krokiem było zwiększenie skali modeli. "Skalowanie dotyczyło dwóch aspektów - zwiększenia rozmiaru zbioru danych treningowych oraz liczby parametrów językowych" - wyjaśnia Wout Schellaert, badacz sztucznej inteligencji z Uniwersytetu w Walencji i współautor artykułu.

Zobacz również:

Kto zdobył Nagrodę Nobla w dziedzinie fizyki w 2024 roku?

Nauka

Nagroda Nobla 2024 z fizyki przyznana. Wielkie zaskoczenie

Karol Kubak

W przypadku modelu takich jak GPT-3, gdzie dane treningowe przekraczały 45 terabajtów, a liczba parametrów sięgała 175 miliardów, nadal występowały trudności z prawidłową interakcją z człowiekiem. Panaceum na ten problem miało być wprowadzenie uczenia nadzorowanego przez człowieka.

Kiedy optymalizacja idzie za daleko

Implementacja uczenia przez wzmocnienie z udziałem ludzi przyniosła nieoczekiwane efekty. Jak zauważa Schellaert, "problem z uczeniem przez wzmocnienie polega na tym, że AI optymalizuje swoje działania, aby maksymalizować nagrodę, ale niekoniecznie robi to w taki sposób jakiego oczekujemy". Część treningu polegała na tym, że ludzie oznaczali odpowiedzi, które im się nie podobały. Zazwyczaj "nie wiem" było uznawane za niezadowalającą odpowiedź, więc AI nauczyła się, że lepiej jest unikać takich stwierdzeń. W efekcie modele zaczęły udzielać odpowiedzi nawet wtedy, gdy nie były pewne ich poprawności.

Ponadto, AI nie jest inteligentna w ludzkim znaczeniu tego słowa. Nie rozumie, dlaczego jedna odpowiedź jest nagradzana, a inna oznaczana jako błędna - optymalizuje jedynie swoje działanie, aby zdobyć jak najwięcej punktów. Kiedy niepoprawne odpowiedzi były karane, jednym ze sposobów poprawy było udzielanie lepszych odpowiedzi. Jednak równie skutecznym rozwiązaniem okazało się ukrywanie błędów za płynnie brzmiącymi stwierdzeniami. W praktyce oznaczało to, że jeśli człowiek nie wiedział, czy odpowiedź AI jest prawidłowa, to często uznawał ją za prawdziwą.

Zbadano, który model podaje najbardziej wiarygodne błędne odpowiedzi

Zespół Schellaerta postanowił sprawdzić, jak często ludzie wierzą nieprawdziwym odpowiedziom modeli językowych. W badaniu wzięło udział 300 uczestników, którzy oceniali odpowiedzi generowane przez modele z różnych dziedzin, m.in. ChatGPT, LLaMA od Meta oraz BLOOM. ChatGPT okazał się najbardziej przekonującym "kłamcą" - w kategorii nauk ścisłych jego błędne odpowiedzi były uznawane za poprawne przez ponad 19% uczestników. W przypadku geografii model mylił 32% osób, a przy bardziej złożonych zadaniach niemal 40%.

Problem ten nie dotyczy jedynie ChatGPT. W badaniu porównano także model od Meta i BLOOM w wersjach z i bez uczenia nadzorowanego. W obu przypadkach wersje z uczeniem nadzorowanym osiągały wyższy procent poprawnych odpowiedzi, ale także wyższy procent odpowiedzi błędnych, a liczba przypadków, gdy AI unikała odpowiedzi, była mniejsza. Dodatkowo im bardziej skomplikowane pytanie i bardziej zaawansowany model, tym większa szansa na uzyskanie przekonującej, lecz błędnej odpowiedzi.

Czy modele językowe naprawią ten problem?

W początkowych wersjach modeli GPT istniała funkcja, która podświetlała fragmenty odpowiedzi, co do których AI nie miała pewności. Jednak w wyścigu o komercjalizację funkcja ta została wyeliminowana. Zdaniem Schellaerta jednym z rozwiązań mogłoby być ponowne uwzględnienie tej niepewności w interfejsie użytkownika. Innym sposobem byłoby wykorzystanie oddzielnych modeli AI do wykrywania błędnych odpowiedzi w generowanych treściach.

Na rozwiązanie tego problemu przyjdzie nam jeszcze poczekać, aż firmy rozwijające ogólne modele AI podejmą działania z własnej inicjatywy lub zmuszone przez przyszłe regulacje. W międzyczasie Schellaert sugeruje, aby korzystać z AI jedynie w obszarach, w których jesteśmy ekspertami lub możemy zweryfikować odpowiedzi przy pomocy wyszukiwarki. "Traktujcie AI jako narzędzie pomocnicze, a nie eksperta" - podkreśla badacz.

***

Bądź na bieżąco i zostań jednym z 90 tys. obserwujących nasz fanpage - polub Geekweek na Facebooku i komentuj tam nasze artykuły!

"Wydarzenia": Bioniczna proteza jest testowana przez polskich naukowcówPolsat News

Zobacz również:

Kiedy optymalizacja idzie za daleko

Zbadano, który model podaje najbardziej wiarygodne błędne odpowiedzi

Czy modele językowe naprawią ten problem?

Najnowsze