Biblioteki otwierają zasoby dla AI. Co to oznacza dla nauki i twórców?
Udostępnienie przez biblioteki milionów książek i dokumentów do trenowania modeli AI może istotnie przyśpieszyć rozwój sztucznej inteligencji, szczególnie dzięki różnorodności językowej oraz historycznemu charakterowi zbiorów. Jednocześnie pojawiają się poważne kwestie związane z kosztami, legalnością wykorzystania treści i koniecznością weryfikacji ich aktualności.

Biblioteki otwierają swoje zasoby dla sztucznej inteligencji. Teraz modele AI będą się uczyły z ogromnych zbiorów zdigitalizowanych książek największych bibliotek na świecie.
AI uczy się teraz z książek
Biblioteka Uniwersytetu Harvarda udostępnia badaczom AI prawie milion książek nawet z XV wieku i w254 językach. Biblioteka publiczna Bostonu również przyczyni się do rozwijania AI, oddając swoje zbiory starych gazet i dokumentów rządowych.
Harvard zapewni 242 miliardy tokenów (jednostek danych) w swojej kolekcji treningowej AI. Chociaż jest to ogromna ilość dla człowieka, to wciąż niewielka dla najbardziej zaawansowanych modeli sztucznej inteligencji. Dla przykładu najnowsza wersja modelu językowego firmy macierzystej Facebooka - Mety - została wytrenowana na ponad 30 bilionach tokenów pobranych z tekstu, obrazów i filmów.
Ponad połowa dostępnych książek jest w języku innym niż angielski, chociaż języki europejskie wciąż dominują, szczególnie niemiecki, francuski, włoski, hiszpański czy łaciński.
Mimo wszystko cały ten pomysł ma parę słabych punktów, m.in. ryzyko nieaktualnych treści i danych, które mogą być nie tylko stronnicze, ale również szkodliwe, dlatego trzeba je eliminować. Sam proces digitalizacji książek jest czasochłonny i kosztowny, a biblioteki mogą go finansować głównie dzięki wsparciu korporacji. Organizacja Open AI przekazała w tym roku 50 mln dolarów grupie instytucji badawczych, które się tym zajmują.
Firmy technologiczne łamią prawa autorskie
Firmy technologiczne zmagają się obecnie z pozwami od właścicieli dzieł, wykorzystanych bez ich zgody do szkolenia chatbotów opartych na sztucznej inteligencji. Skupienie się na treściach znajdujących się w domenie publicznej pozwoli ominąć kontrowersje związane z prawami autorskimi.
Meta została pozwana przez autorów, którzy oskarżają firmę o kradzież ich książek z nielegalnych, pirackich bibliotek. Sarah Silverman oraz dwóch innych autorów przedstawili dowody, że ich książki były dostępne z nielegalnych źródeł w procesie uczenia modeli Mety.
***
Bądź na bieżąco i zostań jednym z 87 tys. obserwujących nasz fanpage - polub GeekWeek na Facebooku i komentuj tam nasze artykuły!