Sztuczna inteligencja otrzymuje kolejne ograniczenia. To już nie będzie dozwolone
OpenAI wprowadza nowe zabezpieczenia dla swoich najnowszych modeli AI – o3 i o4-mini – aby zapobiec ich wykorzystaniu do tworzenia wybranych zagrożeń. Firma opracowała specjalny system monitorowania, który ma na bieżąco wykrywać i blokować niebezpieczne zapytania.

Nowe modele AI bardziej zaawansowane, ale i bardziej ryzykowne
OpenAI ogłosiło wdrożenie nowego systemu zabezpieczającego swoje najnowsze modele sztucznej inteligencji - o3 oraz o4-mini - przed potencjalnym wykorzystaniem do tworzenia zagrożeń biologicznych i chemicznych. Jak podano w najnowszym raporcie bezpieczeństwa firmy, celem rozwiązania jest niedopuszczenie do sytuacji, w której AI mogłaby udzielać instrukcji pomocnych przy planowaniu szkodliwych działań.
Modele o3 i o4-mini reprezentują znaczący postęp względem poprzednich wersji, takich jak GPT-4 czy o1. OpenAI przyznaje, że zwiększona zdolność tych modeli do udzielania odpowiedzi - zwłaszcza w kontekście zagrożeń biologicznych - wiąże się również z wyższym ryzykiem nadużyć przez osoby o… powiedzmy delikatnie złych intencjach.
System bezpieczeństwa oparty na rozumowaniu
Nowy system, nazwany "monitorowaniem rozumowania skoncentrowanym na bezpieczeństwie" (ang. safety-focused reasoning monitor), został specjalnie wytrenowany, by analizować zapytania użytkowników pod kątem zgodności z zasadami OpenAI. Działa jako dodatkowa warstwa ochrony, instruując modele, by odmawiały odpowiedzi na niebezpieczne pytania.
Aby stworzyć skuteczny mechanizm, firma przeprowadziła proces testowania z udziałem tzw. red teamerów, którzy poświęcili około 1000 godzin na ręczne oznaczanie niebezpiecznych zapytań. W testach symulujących działanie nowego systemu modele odmówiły odpowiedzi w 98,7 proc. przypadków.
Czy to wystarczy, by było bezpiecznie?
OpenAI przyznaje, że testy nie uwzględniały sytuacji, w których użytkownicy próbują obejść blokady. Dlatego firma nadal zamierza częściowo polegać na ludziach nadzorujących bezpieczeństwo. Choć o3 i o4-mini nie przekraczają progu "wysokiego ryzyka", wykazały większą skuteczność w odpowiadaniu na pytania związane z bronią biologiczną niż starsze modele.
Systemy monitorujące będą wykorzystywane także w innych obszarach - np. do blokowania generowania przez GPT-4o nielegalnych treści, jak np. wykorzystywanie seksualne dzieci. Mimo tych działań niektórzy badacze obawiają się, że OpenAI nie przykłada wystarczającej wagi do kwestii bezpieczeństwa. Firma Metr, współpracująca przy testach, twierdzi, że miała zbyt mało czasu na ocenę o3 pod kątem zachowań manipulacyjnych. Krytykę wzbudziła też decyzja OpenAI o rezygnacji z publikacji raportu bezpieczeństwa GPT-4.1.
Źródło: TechCrunch.com