Wikipedia skarży się na boty AI. Sztuczna inteligencja przeciąża serwery
Sztuczna inteligencja zdobywa i aktualizuje swoją wiedzę, głównie przeszukując źródła publiczne w internecie. Niektóre modele AI robią to w czasie rzeczywistym, udzielając odpowiedzi poprzez czatboty lub np. jako asystent wyszukiwarki Google. Ten wzmożony ruch internetowy przeciąża serwery, na co ostatnio skarży się Wikipedia. Co dokładnie robią boty AI i dlaczego to tak duży problem?

Sztuczna inteligencja przeciąża serwery Wikipedii
Duże modele językowe (LLMs) sztucznej inteligencji pozyskują wiedzę z internetu i interakcji z użytkownikami. Oprócz tego większość z nich ma funkcję wyszukiwania w internecie i robi to samo, co Google. AI korzysta z botów zwanych crawlerami, które przeczesują sieć i pobierają z niej tekst i pliki. Dane te wykorzystywane są do trenowania modeli AI, co już samo w sobie jest niesamowicie zasobożernym procesem, nawet gdy odbywa się na pobranych wcześniej zestawach danych. A co się dzieje, gdy boty robią to na żywo, generując ogromny ruch sieciowy?
Wikimedia Foundation, do której należą m.in. portal Wikipedia i platforma plików Wikimedia Commons, skarży się na znaczący wzrost natężenia ruchu internetowego na ich serwerach. Nie chodzi jednak o zainteresowanie zwykłych użytkowników, na które Wikipedia jest przygotowana. Na portalu mieści się 144 milionów zdjęć, filmów i innych plików. Niepokojący trend przypisywany jest botom AI, które prowadzą scraping danych, czyli ich automatyczne, masowe pozyskiwanie.
"Te treści były krytycznym składnikiem wyników wyszukiwarek internetowych, co kierowało użytkowników z powrotem na nasze strony. Jednak wraz z rozwojem sztucznej inteligencji ta dynamika się zmienia: obserwujemy znaczący wzrost liczby zapytań, a większość tego ruchu pochodzi od botów scrapingowych, gromadzących dane treningowe dla dużych modeli językowych (LLMs) i innych zastosowań" - pisze Wikimedia Foundation.
Oprócz scrapingu boty korzystają też z interfejsów API i zbiorczego pobierania plików. Fundacja zwraca uwagę, że dzieje się to bez wystarczającej atrybucji. W efekcie użytkownicy końcowi mogą nawet nie wiedzieć, że dane pochodzą z Wikipedii. Co prawda jest to otwarta, darmowa platforma, ale jej twórcy liczą na bezpośrednie odwiedziny ludzkich użytkowników - również po to, aby zachęcać ich do współtworzenia swoich projektów. Ale nie to jest największym problemem.
Boty AI masowo pobierają dane, nie dając nic w zamian
Do dużych skoków ruchu na serwerach Wikipedii dochodzi naturalnie podczas ważnych wydarzeń. Przykładowo, kiedy zmarł Jimmy Carter, jego strona w ciągu dnia miała 2,8 mln wyświetleń, a wielu użytkowników obejrzało 1,5-godzinne wideo z debaty Cartera z Reaganem. W ciągu godziny został osiągnięty niewielki limit połączeń z Wikimedią, co spowodowało wolne ładowanie stron u niektórych użytkowników. Zespołowi IT udało się zmienić ścieżki połączeń sieciowych, aby rozładować to przeciążenie. Działo się to w grudniu 2024 roku, czyli już w czasie mocnej ekspansji generatywnej sztucznej inteligencji. Jak te dwie rzeczy się ze sobą wiążą?
"Od stycznia 2024 obserwujemy wzrost przepustowości wykorzystywanej do pobierania treści multimedialnych o 50%. To wzmożenie [ruchu] nie pochodzi od ludzkich czytelników, lecz w większości od zautomatyzowanych programów, które 'zeskrobują' katalog obrazów z otwartą licencją Wikimedia Commons, aby karmić modele AI. Nasza infrastruktura jest zbudowana, by wytrzymać nagłe skoki ruchu, pochodzące od ludzi w trakcie wydarzeń cieszących się dużym zainteresowaniem, ale natężenie ruchu generowanego przez boty scrapujące jest bezprecedensowe i prowadzi do zwiększenia ryzyka i kosztów" - pisze Wikimedia Foundation.
65% wzmożonego ruchu sieciowego to zasługa botów
Materiały udostępniane za darmo przez fundację znajdują się na serwerach w globalnej sieci centrów danych. Gdy następuje wiele żądań dostępu do artykułu, Wikipedia zapamiętuje (lub zapisuje w pamięci podręcznej - cache) jego zawartość w centrum danych najbliżej użytkownika. Jeśli artykuł przez dłuższy czas nie jest otwierany, trafia on do użytkownika z głównego centrum danych. Dane są też zapisywane w pamięci cache serwera w regionalnych centrach danych dla kolejnych użytkowników. To naturalne trendy przeglądania, do których dostawcy usług są przyzwyczajeni. Boty AI działają jednak nieprzewidywalnie.
Wikimedia zaobserwowała, że podczas gdy ludzie koncentrują się zwykle na powiązanych tematach, crawlery czytają zbiorczo duże liczby stron i często odwiedzają te mniej popularne. Powoduje to wzmożony ruch sieciowy z głównego centrum danych i jest bardziej kosztowne, jeśli chodzi o wykorzystanie zasobów. Fundacja odkryła, że tylko ułamek tego niespodziewanego ruchu pochodzi od ludzkich użytkowników.
Po interpretacji kodu JavaScript okazało się, że 65% wzmożonego ruchu na stronach Wikipedii pochodzi od botów AI, zaś jeśli chodzi o całość ruchu, to ich udział wynosi 35%. "To wysokie użycie powoduje nieustanne problemy dla naszego zespołu Site Reliability, który blokuje przytłaczający ruch takich crawlerów, zanim spowoduje on utrudnienia dla naszych czytelników" - pisze fundacja.
Rozwój AI to kosztowny problem. Skarży się nie tylko Wikipedia
Wikimedia nie jest jedyną platformą, która jest eksploatowana przez boty AI i nie dostaje kompletnie nic w zamian. Można by to porównać do przedsiębiorstw, które korzystają z "darmowej" infrastruktury, a unikają płacenia podatków. Kosztami obarczani są wszyscy, ale zyskami taka firma dzieli się niechętnie. Można to określić jako zachowanie pasożyta. Czy w tym przypadku cel uświęca środki?
Skarżą się na to również inni wydawcy treści, administratorzy stron internetowych czy autorzy projektów Open Source. Twórcy botów nie biorą pod uwagę trudności i kosztów, jakie ich aktywność przysparza autorom, administratorom, firmom hostingowym czy nawet środowisku naturalnemu. Mało kto przejmuje się zrównoważonym podejściem. Rozwój AI i AGI (silnej sztucznej inteligencji) wydaje się celem absolutnie nadrzędnym, do którego jej twórcy dążą w zaślepieniu. A ponoć SI ma służyć dobru ludzkości. Tylko kim jest owa ludzkość? Może tylko "biologicznym programem rozruchowym" do wystartowania AGI - jak to ostatnio określił Elon Musk?
***
Bądź na bieżąco i zostań jednym z 87 tys. obserwujących nasz fanpage - polub GeekWeek na Facebooku i komentuj tam nasze artykuły!