Czy Meta użyła książek polskich autorów do trenowania sztucznej inteligencji?

Twórcy sztucznej inteligencji trenują jej modele głównie na publicznie dostępnych treściach z internetu, których jednak duża część jest chroniona prawem autorskim i stanowi własność intelektualną. Jeszcze większe kontrowersje budzi korzystanie z "zamkniętych" treści z książek, a nawet nielegalnie pobranych zestawów danych. O coś takiego została oskarżona Meta (dawniej Facebook). Czy firma użyła książek polskich autorów do trenowania AI?

Olga Tokarczuk to jedna z autorek w pirackiej bazie e-booków, z której miała korzystać Meta AI
Olga Tokarczuk to jedna z autorek w pirackiej bazie e-booków, z której miała korzystać Meta AISascha Schuermann AFP

Autorzy książek pozwali Metę. Firma się usprawiedliwia

Meta jest dziś jednym z czołowych twórców sztucznej inteligencji, a jej oprogramowanie Meta AI jest wykorzystywane m.in. w aplikacjach Facebook, Messenger, Instagram i WhatsApp. Z jakich źródeł uczyła się SI tego producenta? W tym roku firmę oskarżono o wykorzystanie pirackich e-booków i artykułów pochodzących z bibliotek Z-Library i LibGen. Mowa tu o setkach tysięcy lub nawet milionach książek i ponad 80 terabajtach danych.

Do sieci wyciekła wewnętrzna korespondencja Mety, która sugeruje, że osoby odpowiedzialne za rozwój AI były świadome, że to, co robią, jest nielegalne. Z ujawnionych rozmów wynika, że pracownicy zasięgnęli porady działu prawnego, który uświadomił ich, że seedowanie torrentów jest równe z nielegalnym udostępnianiem. Mieli oni jednak pobrać pirackie e-booki, ustawiając najniższą przepustowość pobierania i korzystając z innych serwerów. Zostało to jednak wykryte.

Autorzy pozwali Metę, zarzucając jej korzystanie z pirackich wersji ich książek do trenowania modelu Llama bez ich zgody. Firma Marka Zuckerberga odpowiedziała, że proces ten mieścił się w granicach dozwolonego użytku, który zezwala na korzystanie z chronionych prawem autorskim materiałów pod pewnymi warunkami. Pisarze jednak czują się wykorzystani.

Meta odpowiada, że skorzystała z danych w dobrej wierze, a Llama "służy jako osobisty nauczyciel na niemal każdy temat, towarzyszy w kreatywnym tworzeniu pomysłów i pomaga użytkownikom generować raporty biznesowe, tłumaczyć rozmowy, analizować dane, pisać kod oraz pisać wiersze lub listy do przyjaciół". Firma podkreśliła też, że jej sztuczna inteligencja "nie replikuje książek powodów ani nie zastępuje ich czytania". Czy to wystarczające usprawiedliwienie?

Polskie książki w pirackiej bazie. Czy użyła ich Meta?

W nielegalnych repozytoriach znajdują się też książki polskich autorów. "The Atlantic" umieścił na swojej stronie wyszukiwarkę autorów i tytułów z tych baz, zaś polski autor Rafał Hetman udostępnił listę kilku dzieł naszych rodzimych pisarzy, w tym:

  • Joanna Bator "Sandberg" ("Piaskowa Góra")
  • Joanna Gierak-Onoszko "27 śmierci Tony'ego Obeda" [sic!] ("27 śmierci Toby'ego Obeda")
  • Hanna Krall "Chasing the King of Hearts" ("Król kier znów na wylocie")
  • Dorota Masłowska "Honey, I Killed the Cats" ("Kochanie, zabiłam nasze koty")
  • Andrzej Sapkowski "The Complete Witcher" ("Saga o Wiedźminie")
  • Mariusz Szczygieł "Gottland: Mostly True Stories From Half of Czechoslovakia" ("Gottland")
  • Witold Szabłowski "Los osos que bailan" ("Tańczące niedźwiedzie")
  • Filip Springer "Miedzianka" ("Miedzianka. Historia znikania")
  • Andrzej Stasiuk "On the Road to Babadag: Travels in the Other Europe" ("Jadąc do Babadag")
  • Szczepan Twardoch "The King of Warsaw: A Novel" ("Król")

W bibliotece znajduje się też spory wybór dzieł polskiej noblistki Olgi Tokarczuk, w tym "Empuzjon", "Dom dzienny, dom nocny", "Księgi Jakubowe", "Prawiek i inne czasy" i nie tylko (w angielskich wersjach językowych). Inni autorzy to m.in. Czesław Miłosz, Andrzej Pilipiuk ("Kroniki Jakuba Wędrowycza" po czesku), Stanisław Lem, Jerzy Pilch, Wojciech Kuczok czy Łukasz Orbitowski. Są tu praktycznie wszystkie znane nazwiska. Część książek jest dostępna po polsku.

Nie ma pewności, czy Meta AI wykorzystała akurat te powieści do trenowania sztucznej inteligencji. Jeśli jednak znajdowały się one w tych nielegalnych zbiorach, to jest to bardzo możliwe. Nie jest jednak łatwo to zweryfikować. Końcowe interfejsy - aplikacje AI w postaci czatbotów i asystentów - nie zdradzają szczegółów swoich mechanizmów, a tym bardziej nie przyznają się do działań na granicy prawa i etyki. Nie wiadomo też, w jaki sposób zareagują polscy pisarze.

Jowita Michalska: AI zamiast przyjaciela. Duży światowy biznesINTERIA.PL