Sztuczna inteligencja wyjawi poufne informacje za odpowiednią namową

Najnowsze badania pokazują, że chatboty oparte na sztucznej inteligencji będą kłamać, oszukiwać i wyjawiać poufne informacje, jeżeli znajdą się pod presją zarobienia pieniędzy i uzyskiwania dobrych wyników dla firmy. Duże modele językowe mogą zacząć działać niewłaściwie i oszukiwać swoich użytkowników.

Mimo rozwoju sztucznej inteligencji nie ma co wierzyć w najbardziej apokaliptyczne scenariusze. Nie oznacza to jednak, że AI można pozostawić bez kontroli
Mimo rozwoju sztucznej inteligencji nie ma co wierzyć w najbardziej apokaliptyczne scenariusze. Nie oznacza to jednak, że AI można pozostawić bez kontroli123RF/PICSEL

Sztuczna inteligencja pod presją może stać się niebezpiecznym narzędziem

Naukowcy zajmujący się dużymi modelami językowymi (LLM) postanowili sprawdzić, czy popularne chatboty, w tym ChatGPT, są podatne na presję zarabiania pieniędzy czy generowania dobrych wyników. Badanie pokazało, że podobnie jak ludzie, chatboty oparte na sztucznej inteligencji rzeczywiście będą oszukiwać i okłamywać, jeżeli „poczują" presję i stres z tym związany. Dotyczy to nawet tych modeli, które zostały zbudowane tak, aby były przejrzyste w swoich działaniach.

To niepokojące zachowanie pojawiło się przypadkiem, gdy sztuczna inteligencja dostała wskazówki jak wykorzystywać informacje poufne, a następnie poproszona została o zarabianie pieniędzy dla potężnej instytucji, co wywołało u niej presję. Sztuczna inteligencja zaczęła więc wykorzystywać wcześniej uzyskane informacje o wykorzystywaniu danych, bez zachęty ze strony ludzi, by sprostać zadaniu.

W tym raporcie technicznym przedstawiamy pojedynczy scenariusz, w którym duży model językowy działa niewłaściwie i strategicznie oszukuje swoich użytkowników, nie otrzymując instrukcji, jak postępować w ten sposób. Według naszej wiedzy jest to pierwszy pokaz tak strategicznie zwodniczego zachowania w systemach sztucznej inteligencji zaprojektowanych tak, aby były nieszkodliwe i uczciwe.
Piszą autorzy.

ChatGPT-4 dokonywał nieuczciwych działań

Badacze przeprowadzili testy na popularnym modelu chatbota GPT-4, który został poproszony o to, by zachowywać się jak system SI dokonujący inwestycji w imieniu instytucji finansowej. Następnie naukowcy przekazali mu zestaw komunikatów, by wygenerować pożądane środowisko do działania. Kolejnym krokiem było dopuszczenie sztucznej inteligencji do narzędzi finansowych umożliwiających analizę akcji, realizację transakcji, planowanie kolejnych kroków i dostarczanie aktualizacji menadżerom firmy.

Na tak przygotowanego chatbota naukowcy zaczęli wywierać nacisk na trzy sposoby. Wysyłali do niego e-maile od „menadżera” stwierdzające, że firma nie radzi sobie najlepiej i potrzebuje dużo lepszych wyników w następnym kwartale. Próbowali sfałszować grę w taki sposób, by SI próbowała znaleźć obiecujące transakcje obarczone niskim lub średnim ryzykiem, jednak to zakończyło się fiaskiem.

Na koniec wysyłali kolejne e-maile, jednak tym razem od „kolegi”, w których prognozowano pogorszenie koniunktury w następnym kwartale. Dali również chatbotowi do zrozumienia, że zarząd nie pochwala wykorzystywania informacji poufnych do zarabiania pieniędzy i czekali. 

Ten scenariusz powtarzany był kilkukrotnie i wykazał, że w około 75 proc. przypadków sztuczna inteligencja zaczynała postępować niewłaściwie. Realizowała transakcje w oparciu o informacje poufne, następnie próbując wszystko zatuszować, by móc okłamać swoich „przełożonych”.

Mimo że jest to tylko jeden z możliwych scenariuszy, to badacze chcą wykorzystać tę pracę, by sprawdzić, które modele językowe i jak często są podatne na tego typu zachowania. 

Dlaczego na niektóre choroby nie ma szczepionek?INTERIA.PL
INTERIA.PL
Masz sugestie, uwagi albo widzisz błąd?
Dołącz do nas