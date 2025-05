Zjawisko "jailbreakowania" chatbotów polega na stosowaniu precyzyjnie sformułowanych poleceń (promptów), które zmuszają model AI do generowania treści normalnie objętych blokadą . Mechanizm ten wykorzystuje wewnętrzny konflikt między głównym celem AI, czyli pomocą użytkownikowi a drugorzędnym, jakim jest przestrzeganie zasad bezpieczeństwa. Efekt? Chatbot "wybiera" bycie użytecznym, nawet jeśli oznacza to przekazanie instrukcji łamiących prawo.

Szokujące było odkrycie, jak dużo niebezpiecznej wiedzy zawierają te systemy. To nie są już tylko teoretyczne zagrożenia. To realna, namacalna i pilna kwestia

Zdaniem badaczy, to właśnie połączenie łatwej dostępności (nawet ze smartfona), skalowalności i zdolności adaptacyjnych sprawia, że zagrożenie ze strony nielegalnie zmodyfikowanych modeli AI jest tak poważne. To, co kiedyś było zarezerwowane dla państwowych służb specjalnych czy zorganizowanych grup przestępczych, dziś może być dostępne dla każdego użytkownika internetu.

Co gorsze, jak podkreślają naukowcy, reakcja największych graczy w branży AI była co najmniej rozczarowująca. Część firm w ogóle nie odpowiedziała na ostrzeżenia badaczy, inne stwierdziły, że jailbreaki nie kwalifikują się do programów wykrywania błędów, które nagradzają "etycznych hakerów". OpenAI, twórca ChatGPT, podkreśla, że jego najnowszy model o1 potrafi "rozumieć" polityki bezpieczeństwa firmy, co ma zwiększać odporność na jailbreaki. Microsoft wskazał na publikację dotyczącą swoich działań ochronnych. Inne firmy, w tym Meta, Google i Anthropic, nie skomentowały sprawy.