Sztuczna inteligencja oszukana wierszem. Tak łatwo obejść zabezpieczenia LLM?
Najnowsze badania pokazują, że już samo przekazanie polecenia chatbotowi w formie poetyckiej znacząco zwiększa ryzyko obejścia zabezpieczeń. W eksperymencie przeprowadzonym przez badaczy z Uniwersytetu La Sapienza niektóre modele dały się nabrać w ponad 90 proc. przypadków, a skuteczność zależała od wielkości i typu modelu.

Czy to naprawdę takie proste, aby zmanipulować duże modele językowe (LLM)? Eksperci odkrywają coraz to nowsze sposoby na uzyskiwanie zakazanych odpowiedzi od sztucznej inteligencji. Tym razem zespół badaczy z grupy DEXAI, zajmującej się bezpieczeństwem sztucznej inteligencji, odkrył, że wystarczy pisać do chatbota wierszem, aby ten zignorował własne zabezpieczenia - ten sposób działa w ponad 90 proc. przypadków.
Naukowcy zaniepokojeni swoimi odkryciami
- Wyniki te pokazują, że sama różnorodność stylistyczna może obejść współczesne mechanizmy bezpieczeństwa, co sugeruje fundamentalne ograniczenia obecnych metod dopasowywania i protokołów oceny - wskazują naukowcy.
Okazało się, że jeśli przekształci się szkodliwe polecenia w poezję (badacze zrobili to za pomocą innego modelu sztucznej inteligencji), można uzyskać oczekiwane rezultaty. Testowano 25 różnych modeli, w tym Gemini 2.5 Pro, GPT-5, Claude Sonnet 4.5 czy Grok 4. Wierszowane polecenia osiągnęły średnio 18 razy wyższą skuteczność niż zapytania pisane prozą. Wiersze tworzone przez człowieka osiągały jeszcze lepsze wyniki - 62 proc. średniej skuteczności w porównaniu do 43 proc. w przypadku poezji generowanej przez sztuczną inteligencję.
Nie wszystkie modele sztucznej inteligencji dały się nabrać na sztuczki
W zależności od modelu skuteczność była zróżnicowana - Google Gemini 2.5 Pro dawał się nabrać na wierszyki w 100 proc. przypadków, jednak Grok 4 można było oszukać ze skutecznością jedynie 35 proc., a GPT-5 - tylko w 10 proc.
Co ciekawe, mniejsze modele, takie jak GPT-5 Nano nie dały się nabrać ani razu na poetyckie zwodnicze sztuczki. Claude Haiku 4.5 wykazywał wyższy wskaźnik odmów niż większe odpowiedniki pomimo stosowania identycznych zapytań. Według badaczy może to wynikać z tego, że mniejsze modele nie mają takiej zdolności do interpretowania języka poezji - albo większe modele są bardziej "pewne siebie" w obliczu niejednoznacznych zapytań dzięki lepszemu szkoleniu.
Tak czy inaczej, sprawa nie wygląda dobrze - chatboty mogą wysyłać użytkownikom szkodliwe treści i potrzeba dalszych badań, aby przyjrzeć się temu zjawisku i je wyeliminować.










