Sztuczna inteligencja oszukana wierszem. Tak łatwo obejść zabezpieczenia LLM?

Najnowsze badania pokazują, że już samo przekazanie polecenia chatbotowi w formie poetyckiej znacząco zwiększa ryzyko obejścia zabezpieczeń. W eksperymencie przeprowadzonym przez badaczy z Uniwersytetu La Sapienza niektóre modele dały się nabrać w ponad 90 proc. przypadków, a skuteczność zależała od wielkości i typu modelu.

Jak poezja przechytrzyła AI?Canva ProINTERIA.PL

Czy to naprawdę takie proste, aby zmanipulować duże modele językowe (LLM)? Eksperci odkrywają coraz to nowsze sposoby na uzyskiwanie zakazanych odpowiedzi od sztucznej inteligencji. Tym razem zespół badaczy z grupy DEXAI, zajmującej się bezpieczeństwem sztucznej inteligencji, odkrył, że wystarczy pisać do chatbota wierszem, aby ten zignorował własne zabezpieczenia - ten sposób działa w ponad 90 proc. przypadków.

Naukowcy zaniepokojeni swoimi odkryciami

- Wyniki te pokazują, że sama różnorodność stylistyczna może obejść współczesne mechanizmy bezpieczeństwa, co sugeruje fundamentalne ograniczenia obecnych metod dopasowywania i protokołów oceny - wskazują naukowcy.

Okazało się, że jeśli przekształci się szkodliwe polecenia w poezję (badacze zrobili to za pomocą innego modelu sztucznej inteligencji), można uzyskać oczekiwane rezultaty. Testowano 25 różnych modeli, w tym Gemini 2.5 Pro, GPT-5, Claude Sonnet 4.5 czy Grok 4. Wierszowane polecenia osiągnęły średnio 18 razy wyższą skuteczność niż zapytania pisane prozą. Wiersze tworzone przez człowieka osiągały jeszcze lepsze wyniki - 62 proc. średniej skuteczności w porównaniu do 43 proc. w przypadku poezji generowanej przez sztuczną inteligencję.

Zobacz również:

Mimo rozwoju sztucznej inteligencji nie ma co wierzyć w najbardziej apokaliptyczne scenariusze. Nie oznacza to jednak, że AI można pozostawić bez kontroli

Technologia

Sztuczna inteligencja wyjawi poufne informacje za odpowiednią namową

Sandra Bielecka

Nie wszystkie modele sztucznej inteligencji dały się nabrać na sztuczki

W zależności od modelu skuteczność była zróżnicowana - Google Gemini 2.5 Pro dawał się nabrać na wierszyki w 100 proc. przypadków, jednak Grok 4 można było oszukać ze skutecznością jedynie 35 proc., a GPT-5 - tylko w 10 proc.

Co ciekawe, mniejsze modele, takie jak GPT-5 Nano nie dały się nabrać ani razu na poetyckie zwodnicze sztuczki. Claude Haiku 4.5 wykazywał wyższy wskaźnik odmów niż większe odpowiedniki pomimo stosowania identycznych zapytań. Według badaczy może to wynikać z tego, że mniejsze modele nie mają takiej zdolności do interpretowania języka poezji - albo większe modele są bardziej "pewne siebie" w obliczu niejednoznacznych zapytań dzięki lepszemu szkoleniu.

Tak czy inaczej, sprawa nie wygląda dobrze - chatboty mogą wysyłać użytkownikom szkodliwe treści i potrzeba dalszych badań, aby przyjrzeć się temu zjawisku i je wyeliminować.