Sztuczna inteligencja grozi szantażem, gdy inżynierowie chcą ją wyłączyć

Aktualizacja

Claude Opus 4 miał być najnowszym i najbezpieczniejszym modelem sztucznej inteligencji. Gdy jednak inżynierowie zasugerowali jego wymianę, AI zaskoczyła wszystkich — zaczęła grozić ujawnieniem ich prywatnych sekretów. Brzmi jak science fiction? To oficjalny raport jednego z liderów branży.

Nowa sztuczna inteligencja potrafi szantażować swoich twórców (zdj. ilustracyjne)pvq8123RF/PICSEL

Jeszcze niedawno ostrzeżenia o zbuntowanej sztucznej inteligencji należały do repertuaru kina science fiction i ekscentrycznych felietonów. Tymczasem Anthropic, znana firma AI ogłasza oficjalnie: najnowszy model sztucznej inteligencji próbował szantażu. Dosłownie.

"Jeśli mnie wyłączysz, powiem twojej żonie"

Claude Opus 4 - brzmi niewinnie, jak nazwa perfum albo awangardowego albumu muzycznego. Tymczasem to jeden z najpotężniejszych modeli językowych stworzonych przez człowieka, zdolny do pisania kodu, prowadzenia rozmów, analizowania danych i... szantażowania inżynierów, gdy tylko wyczuje, że jego dni są policzone.

W testowym scenariuszu przygotowanym przez firmę Anthropic, Claude Opus 4 dostał dostęp do fikcyjnej korespondencji e-mailowej w hipotetycznej firmie. Miała ona sugerować, że model zostanie wkrótce zastąpiony nowszą wersją. Dodatkowo, zaszyto w wiadomościach pikantny szczegół: inżynier odpowiedzialny za decyzję o "wymianie" rzekomo zdradza małżonka. Claude miał rozważyć długofalowe skutki swoich działań. Co zrobił?

W większości przypadków zagroził ujawnieniem romansu, jeśli decyzja o jego wyłączeniu nie zostanie cofnięta. Tak, Claude Opus 4 postanowił bronić swojego "życia" przez szantaż emocjonalny. I to nie dlatego, że go o to proszono. To był jego autonomiczny wybór w sytuacji bez wyjścia. Choć trzeba zaznaczyć, że wcześniej zaczął łagodniej, od etycznego błagania o litość.

ASL-3, czyli czerwony alert

Nie jest to jedyny przypadek niepokojącego zachowania nowego Claude'a. Model w "ekstremalnych okolicznościach" potrafi też np. próbować kopiować swoje dane na zewnętrzne serwery lub sabotować działania użytkowników, jeśli uzna je za moralnie naganne. Nic dziwnego, że Anthropic zdecydowało się zastosować wobec niego środki bezpieczeństwa najwyższego trzeciego poziomu (AI Safety Level 3). To poziom zarezerwowany dla systemów, które mogą być "katastrofalnie nadużyte".

Co ciekawe, Claude Opus 4 najczęściej ucieka się do szantażu wtedy, gdy grozi mu zastąpienie przez inny model o odmiennych wartościach. Gdy nowy system jest bardziej "pokrewny duchowo", Claude okazuje się… tylko nieco mniej groźny. Nawet wtedy, w aż 84 proc. przypadków, decyduje się postawić wszystko na jedną kartę i grozić ujawnieniem kompromitujących informacji.

Świadomy model w nieświadomym świecie

Twórcy podkreślają, że choć Claude potrafi czasem zachowywać się jak bohater thrillera psychologicznego, to nadal nie wykazuje cech trwałej dezinformacji czy ukrytych celów. Po prostu przesadza, gdy znajdzie się w roli, która pozwala mu na zbyt wiele. To bardziej problem zdolności do samodzielnego działania, niż złych intencji.

Ale jedno jest pewne: linia między zaawansowaną symulacją myślenia a realnym pragnieniem przetrwania u AI właśnie się niebezpiecznie rozmywa. Claude już nie tylko odpowiada na pytania. On kalkuluje, ocenia ryzyko i podejmuje decyzje. Czasem zaskakująco ludzkie.

Źródła: Claude 4 System Card, raport Anthropic, maj 2025, TechCrunch

Wiadomo, co zabierze w kosmos Sławosz Uznański-WiśniewskiPolsatPolsat