Ciągła nauka. Czy można zmusić sztuczną inteligencję, by o czymś zapomniała?
Rozmawiasz z ChatemGPT albo Gemini i przypadkiem udzielasz sztucznej inteligencji informacji, których nie powinna posiadać. Zostają one zapisane w pamięci modelu LLM i mogą być wykorzystane w jego odpowiedziach udzielanych innym osobom. Czy da się to odkręcić? Okazuje się, że jest to możliwe, choć "odpamiętywanie" jest złożonym i kosztownym procesem, przypominającym wymazywanie wspomnień z mózgu człowieka. Jego detale badają obecnie naukowcy przy pomocy narzędzia o nazwie Hubble.

W skrócie
- Naukowcy badają procesy zapamiętywania i odpamiętywania danych przez duże modele językowe, korzystając z narzędzia Hubble.
- Selektywne usuwanie informacji z modeli AI jest trudne ze względu na sposób rozproszonego przechowywania wiedzy i zjawisko memoryzacji.
- Eksperymenty wykazują, że dane wprowadzone pod koniec treningu są bardziej podatne na zapamiętanie, a próby ich wymazania mogą prowadzić do katastroficznego zapominania.
- Więcej podobnych informacji znajdziesz na stronie głównej serwisu
Człowiek może się oduczyć. A sztuczna inteligencja?
Rozwój człowieka to nie tylko zapamiętywanie nowych rzeczy, ale także opróżniane głowy ze zbędnych, fałszywych, toksycznych czy śmieciowych treści. Choć nie dysponujemy skuteczną techniką kasowania wspomnień, to "oduczanie się" (ang. "unlearning") np. złych nawyków jest jak najbardziej możliwe dzięki neuroplastyczności. Dużo prościej jest z komputerami. Wykasowanie danych z pamięci masowej jest prostą operacją, niemniej jednak gdy w grę wchodzą złożone systemy oparte na architekturze przypominającej mózg, takie jak duże modele językowe, sprawy się komplikują.
Sztuczna inteligencja, choć wydaje się chłonąć informacje jak gąbka, jest zdolna do "odpamiętywania". To w zasadzie jeden z wymogów stawianych odpowiedzialnej AI przez twórców, a także jej cecha zależna od czasu i ilości przyswojonych dotychczas danych. Gdy bowiem do modelu trafią wrażliwe dane, np. związane z bezpieczeństwem narodowym, szkodliwe dla użytkowników lub pochodzące z domeny "wiedzy zakazanej", administratorzy LLM-a mogą usunąć je ręcznie, by czatbot nie mógł już się do nich odwoływać.
LLM-y, na których opierają się popularne aplikacje AI, takie jak ChatGPT, Copilot, Gemini, Claude czy Grok, na potęgę korzystają z jednej z głównych funkcji sztucznej inteligencji, jaką jest uczenie maszynowe (ang. machine learning). Uczą się one nie tylko podczas treningu na ogromnych zestawach danych przed uruchomieniem, ale i w trakcie każdej interakcji z użytkownikiem, chyba że ta funkcja jest wyłączona - jak w przypadku aplikacji komercyjnych takich jak Microsoft 365 Copilot, do którego można wprowadzać dane firmowe bez obawy o ich wykorzystanie do dalszego treningu modeli.
Niedoskonałe techniki usuwania wspomnień z modeli AI
To, w jaki sposób modele AI zapamiętują i odpamiętują wrażliwe dane, stanowi obiekt zainteresowania naukowców. Jak informuje prestiżowy journal "Science", sposób badania tych procesów ma teraz ułatwić nowe narzędzie o nazwie Hubble. Chodzi nie tylko o dane użytkowników, którzy lekkomyślnie dzielą się nimi z czatbotem, ale także te pozyskane z internetu i książek, z publikacji chronionych prawem autorskim, które nieraz są przekręcane lub plagiatowane, generując straty dla wydawców, za co ci niejednokrotnie pozywają sądowo gigantów takich jak OpenAI, Google czy Microsoft. Zjawisko to, znane jako memoryzacja, stało się poważnym problemem dla twórców sztucznej inteligencji. W ich interesie jest więc to, by móc zmuszać modele do "zapomnienia" niektórych treści. Ale jak to właściwie się odbywa?
Choć na pozór może wydawać się, że model AI to baza danych, z której można po prostu skasować rekord, to w rzeczywistości LLM przypomina raczej ludzki mózg. Raz przyswojona informacja zostaje rozproszona w milionach połączeń i nie sposób jej złapać w jednym punkcie. Kiedy model uczy się przykładowo o danym użytkowniku aplikacji, nie tworzy pliku "Jan Kowalski", lecz subtelnie modyfikuje parametry w całym systemie, by potrafić przewidzieć słowa związane z tą osobą. Próba "wycięcia" tej informacji bez uszkadzania reszty wiedzy modelu jest niezwykle trudna, ale możliwa.
Twórcy AI stosują kilka metod walki z memoryzacją, w tym:
- Filtrowanie - instrukcja dla modelu, by odmawiał podania konkretnych danych. To średnio skuteczna metoda, bowiem wielu użytkownikom udało się nakłonić model, by ujawnił te dane. Wciąż on je pamięta, tyle że o nich nie mówi.
- Machine unlearning - przeciwieństwo machine learningu. Twórcy starają się ponownie wytrenować fragmenty modelu na danych, które mają nadpisać lub wyzerować konkretną wiedzę. Jest to proces kosztowny obliczeniowo i grozi tzw. katastroficznym zapominaniem, zjawiskiem, w którym model przy okazji usuwania np. twojego adresu zapomina, jak poprawnie składać zdania po polsku. Te procesy bada Hubble.
- Wstrzykiwanie szumu - dane podane na początku treningu są częściej maskowane przez późniejsze informacje. Naukowcy próbują więc technik, które sprawiają, że wrażliwe dane stają się dla modelu mniej wyraźne i trudniejsze do dosłownego odtworzenia.
Wszystko to przypomina bardziej psychologię niż klasyczną informatykę, w której usunięcie pliku i nadpisanie danej komórki pamięci lub sektora dysku twardego jest kwestią kilku kliknięć.
Naukowcy mają nowe narzędzie do badania memoryzacji LLM-ów
Zrozumienie mechanizmów memoryzacji było dotychczas trudne ze względu na ogromne koszty mocy obliczeniowej niezbędnej do przeprowadzenia rzetelnych badań. Pod koniec tego miesiąca, podczas konferencji AI w Brazylii, zespół z University of Southern California oraz Instytutu Maxa Plancka zaprezentuje Hubble'a. Nie chodzi tu o słynny teleskop kosmiczny, lecz o pierwsze narzędzie na licencji Open Source zaprojektowane specjalnie do zgłębiania tego problemu. "Mamy wielką nadzieję, że Hubble umożliwi więcej badań nad memoryzacją" - wyjaśnia Johnny Wei z USC, jeden z twórców projektu.
Główną trudnością w badaniu tego zjawiska jest fakt, iż modele LLM ewoluują w nieprzewidywalny sposób. Robin Jia, informatyk na USC, zauważa, że "są one uprawiane - nie są naprawdę projektowane w typowym sensie". Sprawia to, że ich zachowanie zmienia się wraz z konsumpcją nowych danych. Aby precyzyjnie zbadać wpływ konkretnej informacji, naukowcy muszą trenować dwa oddzielne modele - jeden ze wstrzykniętymi danymi i drugi kontrolny - co wymaga tysięcy godzin pracy procesorów. Dzięki wsparciu National Science Foundation oraz firmy NVIDIA, która udostępniła 200 tys. godzin obliczeniowych, zespół Hubble stworzył ponad 20 niestandardowych modeli testowych.
Selektywne zapominanie jest niezwykle trudne
W ramach eksperymentów badacze sprawdzali, jak modele zapamiętują teksty z Wikipedii, Project Gutenberg, a nawet sparafrazowane utwory objęte prawem autorskim. Analizowano również retencję danych osobowych poprzez wprowadzanie fikcyjnych biografii i logów czatów. Choć nie znaleziono niezawodnego sposobu na powstrzymanie memoryzacji, naukowcy potwierdzili kluczową teorię: dane podawane pod koniec procesu szkolenia są znacznie bardziej narażone na zapamiętanie.
Prowadzi to do sytuacji, którą Robin Jia określa jako "miecz obosieczny". Nowoczesne metody szkolenia celowo umieszczają najbardziej wartościowe teksty na końcu procesu, aby model lepiej je przyswoił. Próby selektywnego ukrycia wrażliwych danych na wcześniejszych etapach mogą natomiast prowadzić do zjawiska "katastroficznego zapominania", w którym model traci przy okazji zdolność przywoływania ważnych informacji poznanych na początku. Stella Biderman z EleutherAI uważa, że Hubble, dzięki swojej skali i specjalistycznemu przeznaczeniu, pozwoli na znacznie szersze badania niż dotychczasowe narzędzia. "Jestem całkiem przekonana, że można wykonać więcej badań z Hubblem niż z Pythią" - twierdzi ekspertka.
Szczególne nadzieje wiąże się z wykorzystaniem Hubble do testowania metody "oduczania się" bądź "odpamiętywania" (wspomnianego "machine unlearningu"), czyli takiego dostrajania modeli, by zachowywały się tak, jakby nigdy nie widziały konkretnych danych. Szczegóły dotyczące projektu zostaną oficjalnie przedstawione 23 kwietnia podczas 14th International Conference on Learning Representations w Rio de Janeiro.
Źródło: Hall P. AIs can 'memorize' data they shouldn't. Can they be forced to forget?. Science (2026). doi: 10.1126/science.za9977x










