Szokujący raport! Generatory obrazów szkolone są na zdjęciach krzywdzonych dzieci

Generatory obrazów oparte na sztucznej inteligencji wykorzystywane są do tworzenia zdjęć i grafik przedstawiających seksualne wykorzystywanie dzieci. Wykorzystują do tego dostępną w sieci dziecięcą pornografię.

Zdjęcia dzieci są powrzechnie dostępne w internecie. W dobie sztucznej inteligencji powinny podlegać ścisłej kontroliZdjęcie ilustracyjne123RF/PICSEL

Wiele mówi się o sztucznej inteligencji w kontekście rynku pracy. Widocznie zmienia ona zawody związane z grafiką i oparte na tworzeniu treści. Ale generatory obrazów bazujące na SI mają także swoją ciemną stronę. W październiku informowaliśmy o tym, że coraz większym problemem jest generowanie obrazów wykorzystywania dzieci. W listopadzie w GeekWeeku mogliście przeczytać o tym, że uczniowie tworzą w ten sposób nagie obrazy swoich kolegów i koleżanek. Do niedawna specjaliści zajmujący się przeciwdziałaniem molestowaniu uważali, że dostępne w sieci narzędzia tworzą obrazy, wykorzystując dwie osobne zestawy danych - pornografii dla dorosłych i zwykłych zdjęć dzieci. Prawda okazała się bardziej porażająca, co ujawniły niedawno opublikowane wyniki badań.

Narzędzia SI do generowania obrazów szkolone są na dziecięcej pornografii

Obserwatorium Internetowe Stanforda znalazło 3,2 tys. obrazów przedstawiających wykorzystywanie seksualne dzieci w gigantycznej bazie danych LAION - otwartoźródłowym zbiorze zdjęć i podpisów dostępnych w internecie, który był wykorzystywany do szkolenia najpopularniejszych generatorów obrazów, takich jak Stable Diffusion.

Grupa z Uniwersytetu Stanforda z Kanadyjskim Centrum Ochrony Dzieci i innymi organizacjami charytatywnymi podjęła szybkie działania, aby zidentyfikować nielegalne materiały i zgłosić organom ścigania oryginalne linki do zdjęć.

Reakcja LAIONa była natychmiastowa. W przeddzień publikacji raportu powiedział agencji Associated Press, że czasowo usuwa zbiory danych z platformy Hugging Space i wydał oświadczenie, w którym zapewniał, że "stosuje politykę zerowej tolerancji dla nielegalnych treści i zachowuje szczególną ostrożność".

Liczba zdjęć do szkolenia generatorów obrazów jest gigantyczna

Szkolenie sztucznej inteligencji tak, aby mogła przedstawiać realistycznie wyglądające obrazy, wymaga niesamowicie dużej ilości materiałów. Obrazów dostępnych w bazie LAIONa jest około 5,8 miliarda. Choć w tej puli ponad 3 tys. zdjęć to zaledwie ułamek zbioru, grupa ze Stanford twierdzi, że z dużym prawdopodobieństwem wpływają one na zdolność sztucznej inteligencji do generowania szkodliwych treści.

Według Davida Thiela, głównego technologa Internetowego Obserwatorium Stanforda i autora raportu, geneza problemu sięga początków wprowadzania na rynek tego typu generatorów. Było to robione w dużym pośpiechu, a efekty udostępniane powszechnie ze względu na dużą konkurencyjność.

Oprócz dziecięcej pornografii w dostępnych bazach danych można znaleźć obrazy i teksty związane z gwałtami, pornografią, zachowaniami rasistowskimi i wieloma innymi problematycznymi treściami, w tym prywatnymi i wrażliwymi danymi. To wszystko na licencji open source.

Przeszukanie całego internetu i wykorzystanie tego zbioru danych do wytrenowania modeli to coś, co powinno zostać ograniczone do operacji badawczej, a nie coś, co powinno być dostępne na zasadach open source bez znacznie bardziej rygorystycznej uwagi.
Powiedział Thiel w wywiadzie dla AP

Narzędzia bez zabezpieczeń wciąż są dostępne

Jednym z ważniejszych użytkowników bazy danych LAION, który również pomógł w jej ukształtowaniu, jest londyński start-up Stability AI, twórca modeli zamiany tekstu na obraz Stable Diffusion. Nowe wersje utrudniają generowanie szkodliwych treści, ale starsze, wydane zaledwie w zeszłym roku, takich ograniczeń nie mają. Starsze Stable Diffusion wciąż wbudowane jest w wiele aplikacji i narzędzi, pozostając "najpopularniejszym modelem generowania wyraźne obrazy", jak wynika z raportu Stanforda.

Nie możemy tego cofnąć. Model ten jest w rękach wielu osób na lokalnych komputerach.
Powiedział Lloyd Richardson, dyrektor ds. technologii informatycznych w Kanadyjskim Centrum Ochrony Dzieci, które prowadzi kanadyjską infolinię służącą do zgłaszania wykorzystywania seksualnego w Internecie w rozmowie z AP.

Dlaczego udostępniono tak potężną bazę danych na otwartej licencji?

Pomysłem bazy LAION, której nazwa stanowi akronim od Large-scale Artificial Intelligence Open Network jest Christoph Schuhmann, niemiecki badacz i nauczyciel. Na początku tego roku wyznał w rozmowie z Associated Press, że jednym z powodów publicznego udostępnienia tak ogromnej wizualnej bazy danych była chęć zapewnienia, że przyszłość rozwoju sztucznej inteligencji nie będzie kontrolowana przez kilka potężnych firm.

Raport Stanforda Raport Stanforda rodzi również pytania dotyczące etyki umieszczania zdjęć dzieci w systemach sztucznej inteligencji bez zgody rodziny. Proponuje się także użycie podpisów cyfrowych podobnych do tych używanych do śledzenia i usuwania materiałów przedstawiających wykorzystywanie dzieci w filmach i obrazach, aby ograniczyć niewłaściwe wykorzystanie modeli sztucznej inteligencji.

Najbardziej oczywistym rozwiązaniem dla większości osób posiadających zestawy szkoleniowe pochodzące z LAION-5B jest ich usunięcie lub współpraca z pośrednikami w celu oczyszczenia materiału. Modele oparte na Stable Diffusion 1.5, w których nie zastosowano środków bezpieczeństwa, powinny zostać uznane za przestarzałe, a tam, gdzie było to możliwe, zaprzestano dystrybucji.
Zauważają autorzy badania

Narzędzia SI do generowania obrazów szkolone są na dziecięcej pornografii

Liczba zdjęć do szkolenia generatorów obrazów jest gigantyczna

Narzędzia bez zabezpieczeń wciąż są dostępne

Dlaczego udostępniono tak potężną bazę danych na otwartej licencji?

Najnowsze