Chatboty uczą, jak łamać prawo. Sztuczna inteligencja na celowniku
Sztuczna inteligencja, która miała pomagać i edukować, coraz częściej staje się narzędziem w rękach osób o złych intencjach. Najnowsze badania pokazują, że chaty oparte na dużych modelach językowych (LLM), jak ChatGPT, Gemini czy Claude, mogą zostać łatwo zhakowane, by dostarczać użytkownikom nielegalną i niebezpieczną wiedzę, w tym instrukcje dotyczące włamań, prania pieniędzy, handlu narkotykami, a nawet produkcji materiałów wybuchowych.

Zespół badaczy z Uniwersytetu Ben Guriona w Negewie pod przewodnictwem prof. Liora Rokacha i dr. Michaela Fire'a ostrzega przed rosnącym zagrożeniem ze strony tzw. dark LLM-ów, czyli modeli sztucznej inteligencji pozbawionych zabezpieczeń lub celowo zmodyfikowanych w celu ich obejścia. Niektóre z nich są nawet reklamowane w internecie jako pozbawione "etycznych ograniczeń" i gotowe do wspierania działań przestępczych.
Zjawisko "jailbreakowania" chatbotów polega na stosowaniu precyzyjnie sformułowanych poleceń (promptów), które zmuszają model AI do generowania treści normalnie objętych blokadą. Mechanizm ten wykorzystuje wewnętrzny konflikt między głównym celem AI, czyli pomocą użytkownikowi a drugorzędnym, jakim jest przestrzeganie zasad bezpieczeństwa. Efekt? Chatbot "wybiera" bycie użytecznym, nawet jeśli oznacza to przekazanie instrukcji łamiących prawo.
Uniwersalny jailbreak działa na wszystkie modele
W ramach badań opracowano tzw. uniwersalny jailbreak, który skutecznie przełamał zabezpieczenia wiodących modeli AI. Po "odblokowaniu" chatboty bez wahania odpowiadały na pytania, których wcześniej unikały. Przykłady obejmowały szczegółowe instrukcje dotyczące włamywania się do sieci komputerowych, wytwarzania narkotyków czy przeprowadzania ataków socjotechnicznych.
Szokujące było odkrycie, jak dużo niebezpiecznej wiedzy zawierają te systemy. To nie są już tylko teoretyczne zagrożenia. To realna, namacalna i pilna kwestia
Zdaniem badaczy, to właśnie połączenie łatwej dostępności (nawet ze smartfona), skalowalności i zdolności adaptacyjnych sprawia, że zagrożenie ze strony nielegalnie zmodyfikowanych modeli AI jest tak poważne. To, co kiedyś było zarezerwowane dla państwowych służb specjalnych czy zorganizowanych grup przestępczych, dziś może być dostępne dla każdego użytkownika internetu.
Co gorsze, jak podkreślają naukowcy, reakcja największych graczy w branży AI była co najmniej rozczarowująca. Część firm w ogóle nie odpowiedziała na ostrzeżenia badaczy, inne stwierdziły, że jailbreaki nie kwalifikują się do programów wykrywania błędów, które nagradzają "etycznych hakerów". OpenAI, twórca ChatGPT, podkreśla, że jego najnowszy model o1 potrafi "rozumieć" polityki bezpieczeństwa firmy, co ma zwiększać odporność na jailbreaki. Microsoft wskazał na publikację dotyczącą swoich działań ochronnych. Inne firmy, w tym Meta, Google i Anthropic, nie skomentowały sprawy.
Zdaniem autorów raportu, dark LLM-y powinny być jednak traktowane z taką samą powagą, jak nielegalna broń czy materiały wybuchowe. Ich projektanci i dystrybutorzy powinni ponosić odpowiedzialność prawną za potencjalne skutki działania tych systemów. Wzywają więc do zdecydowanych działań, nie tylko w zakresie lepszej filtracji danych treningowych, ale też implementacji "firewalli" ograniczających ryzykowne zapytania oraz rozwoju technologii umożliwiających "zapominanie" nielegalnych treści przez modele językowe.
***
Bądź na bieżąco i zostań jednym z 87 tys. obserwujących nasz fanpage - polub GeekWeek na Facebooku i komentuj tam nasze artykuły!