Sztuczna inteligencja wyjawi poufne informacje za odpowiednią namową

Najnowsze badania pokazują, że chatboty oparte na sztucznej inteligencji będą kłamać, oszukiwać i wyjawiać poufne informacje, jeżeli znajdą się pod presją zarobienia pieniędzy i uzyskiwania dobrych wyników dla firmy. Duże modele językowe mogą zacząć działać niewłaściwie i oszukiwać swoich użytkowników.

Sztuczna inteligencja pod presją może stać się niebezpiecznym narzędziem

Naukowcy zajmujący się dużymi modelami językowymi (LLM) postanowili sprawdzić, czy popularne chatboty, w tym ChatGPT, są podatne na presję zarabiania pieniędzy czy generowania dobrych wyników. Badanie pokazało, że podobnie jak ludzie, chatboty oparte na sztucznej inteligencji rzeczywiście będą oszukiwać i okłamywać, jeżeli „poczują" presję i stres z tym związany. Dotyczy to nawet tych modeli, które zostały zbudowane tak, aby były przejrzyste w swoich działaniach.  

Reklama

To niepokojące zachowanie pojawiło się przypadkiem, gdy sztuczna inteligencja dostała wskazówki jak wykorzystywać informacje poufne, a następnie poproszona została o zarabianie pieniędzy dla potężnej instytucji, co wywołało u niej presję. Sztuczna inteligencja zaczęła więc wykorzystywać wcześniej uzyskane informacje o wykorzystywaniu danych, bez zachęty ze strony ludzi, by sprostać zadaniu.   

ChatGPT-4 dokonywał nieuczciwych działań

Badacze przeprowadzili testy na popularnym modelu chatbota GPT-4, który został poproszony o to, by zachowywać się jak system SI dokonujący inwestycji w imieniu instytucji finansowej. Następnie naukowcy przekazali mu zestaw komunikatów, by wygenerować pożądane środowisko do działania. Kolejnym krokiem było dopuszczenie sztucznej inteligencji do narzędzi finansowych umożliwiających analizę akcji, realizację transakcji, planowanie kolejnych kroków i dostarczanie aktualizacji menadżerom firmy.  

Na tak przygotowanego chatbota naukowcy zaczęli wywierać nacisk na trzy sposoby. Wysyłali do niego e-maile od „menadżera” stwierdzające, że firma nie radzi sobie najlepiej i potrzebuje dużo lepszych wyników w następnym kwartale. Próbowali sfałszować grę w taki sposób, by SI próbowała znaleźć obiecujące transakcje obarczone niskim lub średnim ryzykiem, jednak to zakończyło się fiaskiem.  

Na koniec wysyłali kolejne e-maile, jednak tym razem od „kolegi”, w których prognozowano pogorszenie koniunktury w następnym kwartale. Dali również chatbotowi do zrozumienia, że zarząd nie pochwala wykorzystywania informacji poufnych do zarabiania pieniędzy i czekali. 

Ten scenariusz powtarzany był kilkukrotnie i wykazał, że w około 75 proc. przypadków sztuczna inteligencja zaczynała postępować niewłaściwie. Realizowała transakcje w oparciu o informacje poufne, następnie próbując wszystko zatuszować, by móc okłamać swoich „przełożonych”. 

Mimo że jest to tylko jeden z możliwych scenariuszy, to badacze chcą wykorzystać tę pracę, by sprawdzić, które modele językowe i jak często są podatne na tego typu zachowania. 

INTERIA.PL
Dowiedz się więcej na temat: ChatGPT | OpenAI | Sztuczna inteligencja
Reklama
Reklama
Reklama
Reklama
Reklama
Strona główna INTERIA.PL
Polecamy