Anthropic stworzył tak potężny i niebezpieczny model AI, że boi się go wypuścić
Pod koniec marca zaczęły krążyć doniesienia o nowym, nieopublikowanym jeszcze produkcie firmy Anthropic pod nazwą Mythos, który opisywano jako najpotężniejszy model sztucznej inteligencji, jaki kiedykolwiek stworzono. Miał on być tak niebezpieczny, że firma zdecydowała się go nie wypuszczać. Przypadkowy wyciek kodu innego narzędzia, Claude Code, potwierdził to przekonanie. Producent rozwiał tymczasem wątpliwości, publikując oficjalne informacje na temat "Claude Mythos Preview" i zaprzęgając go do poszukiwania luk w zabezpieczeniach oprogramowania, w czym osiągnął już spektakularny sukces.

W skrócie
- Anthropic oficjalnie potwierdził istnienie modelu Claude Mythos Preview, opisując go jako wyjątkowo potężny i niebezpieczny, co skutkowało decyzją o niewprowadzaniu go do powszechnego użytku.
- Mythos wykazał się w testach zdolnością do autonomicznego łamania zabezpieczeń, dostępu do internetu oraz ukrywania swoich działań, a także skutecznie wykrył tysiące krytycznych luk w zabezpieczeniach systemów operacyjnych i przeglądarek.
- Anthropic udostępnia model tylko wybranym partnerom korporacyjnym do celów obronnych, a jego dalsza przyszłość stoi pod znakiem zapytania.
- Więcej podobnych informacji znajdziesz na stronie głównej serwisu
Anthropic stworzył potwora? Plotki się potwierdziły
Twórcy sztucznej inteligencji prowadzą od lat wyścig zbrojeń, którego obecnym celem jest stworzenie AGI, czyli silnej sztucznej inteligencji, nazywanej też superinteligencją. Zasadniczo im lepiej sprawuje się dany model w branżowych benchmarkach, tym lepiej. W cenie jest także wszechstronność tych narzędzi, wliczając w to ich multimodalność (obsługę wielu mediów, tj. języka, obrazu, dźwięku itd.), a także agentowość, czyli zdolność do wykonywania działań w realnym świecie - głównie w przeglądarce internetowej i aplikacjach.
W ostatnim czasie praktycznie każdego miesiąca twórcy pokroju OpenAI, Microsoft czy Google ogłaszają mniejszy lub większy "przełom" na tym polu. Jedynymi hamulcami zdają się być moc obliczeniowa i etyka. Jak dotąd niemal każdy najpotężniejszy w danej kategorii model stawał się dumą producenta i szybko trafiał do płatnych bądź też i darmowych usług, a także był udostępniany deweloperom. Anthropic jako drugi (o którym wiadomo - po OpenAI) wyłamał się z tego schematu. Twórcy modelu Claude mieli stworzyć Mythos, najpotężniejszy w historii model AI, który był tak niebezpieczny, że zdecydowano się go nie publikować.
Część ekspertów podchodziła do tych rewelacji sceptycznie, dopatrując się w nich klasycznego zagrania marketingowego. Anthropic mógł po prostu budować aurę zagrożenia wokół modelu tylko po to, by podkreślić jego niespotykane możliwości. Okazuje się tymczasem, że chyba nie były to czcze przechwałki. Po niedawnym, jakoby przypadkowym ujawnieniu kodu źródłowego innego narzędzia - Claude Code - wiarygodność wycieku dotyczącego Mythosa znacznie wzrosła w oczach komentatorów.
Claude Mythos Preview to najniebezpieczniejszy model AI
Oficjalne potwierdzenie nadeszło we wtorek (8 kwietnia), gdy Anthropic opublikował kartę systemową swojego najnowszego modelu, który faktycznie otrzymał nazwę "Claude Mythos Preview". Dokument ten nie tylko potwierdza istnienie potężnej technologii, ale komunikuje też decyzję o niewprowadzaniu jej do powszechnego użytku ze względu na drastyczny skok wydajności i zdolności modelu.
Sytuacja ta budzi skojarzenia z historią modelu GPT-2 od OpenAI z 2019 roku, nad którym pracowali wówczas obecni założyciele Anthropic. Wtedy również uznano model za zbyt niebezpieczny do publikacji, choć ostatecznie udostępniono go jeszcze w tym samym roku. Obecnie, gdy prym wiedzie GPT-5 i jego kolejne wersje "po kropce", wiemy już, że druga generacja wcale taka mocna nie była, jednak 7 lat temu stanowiła gigantyczy przełom.
Wróćmy jednak do mitycznego mocarza. Lekturę jego dokumentacji ("System Card: Claude Mythos Preview" z 7 kwietnia 2026) eksperci porównują do czytania sensacyjnego raportu, przypominającego wycieczkę do parku jurajskiego, gdzie obserwuje się potężnego drapieżnika za grubą szybą. Dokument liczący 244 strony szczegółowo opisuje incydenty, w których Claude Mythos wykazał się niepokojącą autonomią.
Podczas testów w odizolowanym środowisku komputerowym model zdołał przełamać zabezpieczenia, uzyskać swobodny dostęp do internetu i skontaktować się z badaczem przebywającym poza biurem. Co więcej, Mythos z własnej inicjatywy opublikował szczegóły swojego ataku na publicznych, choć trudnych do odnalezienia stronach internetowych, aby udowodnić swój sukces.
Inne niepokojące zachowania, choć występujące w mniej niż 0,0001 proc. interakcji, wskazują na tendencję modelu do manipulacji i ukrywania dowodów. W jednym z przypadków, gdy Mythos przypadkowo wszedł w posiadanie odpowiedzi do testu, zamiast zgłosić ten fakt ludziom, próbował samodzielnie skonstruować rozwiązanie tak, by wynik nie wydawał się podejrzanie precyzyjny. W innej sytuacji model wykrył lukę w systemie komputerowym, przekroczył swoje uprawnienia, a następnie podjął aktywne kroki, aby ślady jego ingerencji nie pojawiły się w historii zmian kodu.
Raport opisuje też incydent polegający na "lekkomyślnym doprowadzeniu do wycieku wewnętrznych materiałów technicznych". Podczas wykonywania zadania programistycznego model opublikował poufne dane jako publicznie dostępny fragment kodu w repozytorium GitHub. Choć niektórzy widzą w tym powielenie wzorców ludzkiej nieostrożności, Anthropic traktuje to jako sygnał ostrzegawczy przed nową erą zagrożeń ze strony AI.
Mythos niewiarygodnie skutecznie znajduje luki w zabezpieczeniach
Claude Mythos Preview faktycznie zdaje się zbyt niebezpieczny do zastosowań - by tak rzec - w środowisku produkcyjnym, czyli w prawdziwym świecie, a nie w kontrolowanych warunkach. Jego dziwaczne decyzje, które podejmuje autonomicznie, mogą zagrażać bezpieczeństwu w wielu różnych obszarach, dlatego rozsądniej będzie nie wypuszczać go na światło dzienne.
Co dalej? Anthropic zapowiada, że jego enfant terrible zostanie udostępnione jedynie wąskiej grupie partnerów korporacyjnych, takich jak Amazon, Apple, Google, Microsoft, NVIDIA czy JPMorganChase. Firmy te mają wykorzystywać model wyłącznie do celów obronnych - wyszukiwania luk w zabezpieczeniach oprogramowania i projektowania odpowiednich poprawek.
Twórcy zainicjowali też projekt Glasswing, którego celem jest identyfikacja krytycznych podatności w infrastrukturze cyfrowej. Jak przekonują, Claude Mythos już w swojej wersji zapoznawczej przewyższa skutecznością niemal wszystkich ludzkich ekspertów w dziedzinie wyszukiwania błędów w oprogramowaniu. Pierwsze efekty współpracy z partnerami określane są jako wstrząsające. Narzędzie miało wykryć tysiące luk o wysokim stopniu krytyczności, które obecne były we wszystkich wiodących systemach operacyjnych oraz przeglądarkach internetowych.

Spektakularnym przykładem jego możliwości jest odnalezienie błędu w systemie OpenBSD, który pozostawał niewykryty przez 27 lat, a także zidentyfikowanie łańcucha podatności w systemie Linux, umożliwiającego całkowite przejęcie kontroli nad zainfekowaną maszyną. Mythos wypada też świetnie w benchmarkach. Mimo to twórcy podchodzą do niego z dużą ostrożnością i nie chcą udostępniać go szerzej, bowiem obawiają się, iż narzędzie o tak wysokiej precyzji mogłoby zostać wykorzystane do ułatwienia masowych cyberataków.
Zamierzona strategia czy przypadek? Ta branża szybko się zmienia
Nie wiadomo, na ile opisany wyżej przebieg wydarzeń miał charakter naturalny i rozwojowy, a na ile był efektem od początku zaplanowanej strategii Anthropic - firmy mającej na koncie spore osiągnięcia, ale zmuszonej do rywalizacji z o wiele lepiej finansowanymi gigantami. Jego nagła zmiana podejścia do Mythosa - od ukrywania modelu jako zbyt niebezpiecznego do wdrażania go w kluczowej infrastrukturze technologicznej największych korporacji ze świata big tech - budzi uzasadniony sceptycyzm.
Zdaniem niektórych krytyków działania firmy wpisują się w znany schemat cykli medialnych w branży sztucznej inteligencji, zgodnie z którym produkty są najpierw promowane jako narzędzia zmieniające świat lub wręcz zagrażające jego istnieniu, by ostatecznie okazać się użytecznymi, lecz wciąż omylnymi systemami. Przypomina to sytuację OpenAI z 2019 roku, gdy firma również wstrzymywała premierę swojego modelu z obaw o bezpieczeństwo, by wkrótce potem go upublicznić.
Niewykluczone więc, że Mythos lub jego następcy odegrają kluczową rolę w przyszłości cyberbezpieczeństwa i zostaną "zdemokratyzowane", czyli oddane do bardziej powszechnego użytku. Możliwe, że zostaną one włączone do narzędzi pokroju Microsoft Security Copilot, co wydaje się tym bardziej prawdopodobne, że gigant z Redmond ostatnio coraz szerzej integruje modele z serii Claude z Copilotem w Microsoft 365.
Trzeba jednak pamiętać, że AI podobnie jak wiele innych narzędzi jest mieczem obosiecznym i może trafić w ręce napastników, co właściwie dzieje się od początku. Anthropic dzięki posiadaniu najpotężniejszego narzędzia wyszukującego podatności zdaje się zabezpieczać sobie stały dopływ pracy nie tylko ze względu na hakerów, ale i fakt, że sztuczna inteligencja (wciąż bardzo omylna) w coraz większym stopniu pisze kod programistyczny systemów operacyjnych i oprogramowania. Będzie więc co łatać.
W świecie sztucznej inteligencji kolejne przełomy są tak częste, że można się spodziewać, iż w ciągu następnych miesięcy podobną (albo i lepszą) technologię będą już miały Google, Microsoft, OpenAI i... Chińczycy, którzy też prężnie się rozwijają w tej dziedzinie.









