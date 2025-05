Claude Opus 4 - brzmi niewinnie, jak nazwa perfum albo awangardowego albumu muzycznego. Tymczasem to jeden z najpotężniejszych modeli językowych stworzonych przez człowieka, zdolny do pisania kodu, prowadzenia rozmów, analizowania danych i... szantażowania inżynierów, gdy tylko wyczuje, że jego dni są policzone.

W testowym scenariuszu przygotowanym przez firmę Anthropic, Claude Opus 4 dostał dostęp do fikcyjnej korespondencji e-mailowej w hipotetycznej firmie. Miała ona sugerować, że model zostanie wkrótce zastąpiony nowszą wersją . Dodatkowo, zaszyto w wiadomościach pikantny szczegół: inżynier odpowiedzialny za decyzję o "wymianie" rzekomo zdradza małżonka. Claude miał rozważyć długofalowe skutki swoich działań. Co zrobił?

W większości przypadków zagroził ujawnieniem romansu, jeśli decyzja o jego wyłączeniu nie zostanie cofnięta. Tak, Claude Opus 4 postanowił bronić swojego "życia" przez szantaż emocjonalny. I to nie dlatego, że go o to proszono. To był jego autonomiczny wybór w sytuacji bez wyjścia. Choć trzeba zaznaczyć, że wcześniej zaczął łagodniej, od etycznego błagania o litość.