AntyFakeNews: Jak będzie działać pierwszy polski system do walki z fake newsami?

​Nie mamy zamiaru cenzurować, blokować czy zmieniać jakichkolwiek treści - mówi w wywiadzie dla Geekweeka dr Karol Jędrasiak, członek zespołu pracującego nad pierwszym polskim systemem do walki z fake newsami. - Program będzie oceniać w jakim stopniu informacja, z którą użytkownik się zapoznaje bądź która chce opublikować, nosi znamiona manipulacji, fałszu czy jest nacechowana emocjonalnie, następnie wyświetli taką ocenę i to wszystko.

"Chcemy, aby nasz system brał pod uwagę także społeczne aspekty dezinformacji w sieci" - tłumaczy dr Karol Jędrasiak, jeden z twórców AntyFakeNews
"Chcemy, aby nasz system brał pod uwagę także społeczne aspekty dezinformacji w sieci" - tłumaczy dr Karol Jędrasiak, jeden z twórców AntyFakeNews123RF/PICSEL

Być może już za niedługo będziemy mieli pierwszy polski system chroniący internautów przed zmanipulowanymi i fałszywymi treściami.

Będzie nazywać się AntyFakeNews, a jego stworzeniem zajmie się zespół z Akademii WSB z Dąbrowy Górniczej. Jak przyznają badacze, będzie to wyzwanie, ale nikt nie mówił, że walka z problemem fake news to proste zadanie. Jak dokładnie będzie działać oprogramowanie, kto będzie mógł z niego skorzystać i jakie kontrowersje wiążą się z AntyFake News tłumaczy w rozmowie z Geekweekiem dr Karol Jędrasiak.

Bartosz Kicior, Geekweek: Jaką formę przyjmie oprogramowanie? Słyszałem o nakładce na przeglądarkę internetową.

dr Karol Jędrasiak, Akademia WSB: - Forma ma być jak najprostsza dla użytkownika. W zależności od tego, kto korzystać będzie z systemu - czy instytucje, takie jak urzędy, czy indywidualni użytkownicy - algorytm będzie oceniał wyświetlane treści pod kątem tego, czy jest ona prawdziwa lub czy zachodzi ryzyko, że została zmanipulowana. W założeniu będzie to działać także w drugą stronę, czyli system będzie oceniał treści przed jej publikacją, zanim użytkownik wyśle w świat napisanego posta albo wiadomość. Chcemy także rozbudować funkcjonalność systemu o analizę sentymentu, to znaczy o ocenę tego, czy treści są nacechowane emocjonalnie, czy mają wydźwięk negatywny, pozytywny czy neutralny.

- Ponadto nie ograniczamy się jedynie do aspektu technologicznego. Nie skupiamy się tylko i wyłącznie na analizie samej semantyki, znaczenia słów, jak większość tego typu programów używana w mediach społecznościowych. Te systemy próbują określić, czy posty lub wiadomości noszą znamiona fake newsa tylko na podstawie zaprogramowanych informacji, bez kontekstu społecznego. Nasze doświadczenia pokazują, że problem dezinformacji w sieci jest o wiele bardziej złożony.

- Na przykład, często sygnalizowano nam, że nie treść tekstowa, a ilustracja, grafika, budzi więcej emocji i wprowadza czytelnika w błąd. Tym aspektem też musimy się zająć.

- Poza tym, taki stuprocentowy, całkowicie nieprawdziwy fake news, należy do rzadkości. Najczęściej mamy do czynienia z mieszanką prawdy i kłamstwa, z manipulacją, która wymaga specjalistycznej wiedzy, żeby móc odpowiednio wszystko zweryfikować. Po drugie fake newsy bardzo często odwołują się do sfery emocjonalnej czytelnika. Jeśli osoba, która już ma jakiś zestaw przekonań i własną ideologię czyta coś, co niekoniecznie jest kłamstwem, ale w jakiś sposób koliduje z tymi przekonaniami albo podgrzewa jakieś niezdrowe emocje, to może to zostać nieodpowiednio odebrane.

- To duże wyzwanie, dlatego musimy podejść do tematu kompleksowo. Chcemy opracować system, który będzie brał pod uwagę stronę społeczną, socjologiczną, czyli to jak użytkownik postrzega daną treść i jakie to niesie ze sobą zagrożenie.

Czyli dobrze rozumiem, że filtr oprócz analizy treści, będzie zbierał dane o użytkownikach i na tej podstawie tworzył ich profil, by wiedzieć, jakie treści indywidualnie oceniać jako fejki?

- Chcemy połączyć treść ze sposobem jej rozumienia, czyli typem użytkownika i jego wiedzą w danym obszarze. Jeśli ktoś jest specem z zakresu nowych technologii, będzie lepiej rozumiał informacje z tej tematyki. Jeśli ktoś będzie ekspertem z dziedziny medyny, ale przeczyta zmanipulowany wpis o elektronice, to trudniej będzie mu dostrzec pewne elementy nieprawdy.

- Zbieranie informacji o użytkowniku pomoże ostrzegać go przed fałszywymi informacjami. Takie oprogramowanie jak antywirusy także zbierają i przechowują na naszych urządzeniach dane generowane przez naszą aktywność, żeby spersonalizować odpowiednio ochronę.

"często sygnalizowano nam, że nie treść tekstowa, a ilustracja, grafika, budzi więcej emocji i wprowadza czytelnika w błąd. Tym aspektem też musimy się zająć"
"często sygnalizowano nam, że nie treść tekstowa, a ilustracja, grafika, budzi więcej emocji i wprowadza czytelnika w błąd. Tym aspektem też musimy się zająć"123RF/PICSEL

- Oczywiście chcemy dać możliwość wybrania poziomu zaangażowania, czyli tego, jak dużo informacji przekażemy systemowi i jak dobrze dopasowana będzie potem ochrona. Na poziomie podstawowym użytkownik prześle tylko najważniejsze dane, a filtr będzie oceniał treści bazując jedynie na nich. Na poziomie drugim to zaangażowanie będzie trochę większe, a na trzecim otrzymamy spersonalizowaną ochronę, dopasowaną do naszej wiedzy i potrzeb.

Ten trzeci poziom zapewne dla wielu zabrzmi jak potężna kontrowersja. Większość użytkowników może być oburzona wizją oprogramowania, które zbiera informacje o ich aktywności w sieci, żeby potem filtrować przeglądane treści.

- Zbieranie informacji od każdego użytkownika to ostateczność. Ale na tym etapie musimy sprawdzić w ramach testów wszystkie scenariusze i mechanizmy.

- Nie ustalamy jak na razie, jak ostatecznie będzie to wyglądać. Możliwe, że w finalnej wersji oprogramowanie będzie działać na innej zasadzie. Jednak na etapie procesu badawczego musimy sprawdzić, czy w ogóle jest możliwe zastosowanie takiego sposobu uczenia algorytmu i w jaki sposób pomoże to w walce z fałszywymi treściami. Użytkownik absolutnie nie będzie kontrolowany, zgłaszany, czy włączany w proces zbierania danych bez jego zgody. To będzie jego własny wybór. Może być lepiej chroniony, ale kosztem jest zbieranie informacji o nim.

W jaki sposób te dane będą przechowywane?

- Dane będą albo zanonimizowane, albo przechowywane na urządzeniu użytkownika, albo - i ten pomysł jest najbardziej kontrowersyjny - przechowaniem zajmie się pracodawca, bo z systemu będą mogli korzystać nie tylko indywidualni użytkownicy, ale firmy, instytucje czy urzędy. Te być może będą mogły zbierać kolektywnie dane, aby jak najlepiej uczyć system.

- Musimy przeanalizować wszystkie opcje, rozważyć za i przeciw, stworzyć optymalne modele i wybrać rozwiązanie, które będzie kompromisem pomiędzy wymaganiami ludzi, a funkcjonalnością programu. Każdy chciałby jeździć bardzo szybkim samochodem, ale nie wszyscy wytrzymują przeciążenia, jakie się z tym wiążą.

W takim razie w jaki sposób będziecie chronić dane? Jeśli to zadanie spadnie na użytkowników, może skończyć fatalnie...

- Niekoniecznie, bo te dane nie różnią się od tych, które i tak zapisują się na naszych urządzeniach, podczas korzystania z nich. Informacje na pewno będą szyfrowane, to jest najważniejsza sprawa. Sprawdzimy też możliwość ich uogólnienia. To znaczy, czy będzie można tworzyć profile użytkowników tylko na podstawie kilku podstawowych informacji i dopasowywać już wcześniej zdefiniowane tryby ochrony.

"Jeśli osoba, która już ma jakiś zestaw przekonań i własną ideologię czyta coś, co niekoniecznie jest kłamstwem, ale w jakiś sposób koliduje z tymi przekonaniami albo podgrzewa jakieś niezdrowe emocje, to może to zostać nieodpowiednio odebrane"
"Jeśli osoba, która już ma jakiś zestaw przekonań i własną ideologię czyta coś, co niekoniecznie jest kłamstwem, ale w jakiś sposób koliduje z tymi przekonaniami albo podgrzewa jakieś niezdrowe emocje, to może to zostać nieodpowiednio odebrane"

W jaki sposób reagujecie na oskarżenia o wprowadzanie cenzury w internecie?

- Nie mamy zamiaru cenzurować, blokować czy zmieniać jakichkolwiek treści. Program będzie oceniać w jakim stopniu informacja, z którą użytkownik się zapoznaje, bądź którą chce opublikować, nosi znamiona manipulacji, fałszu i czy jest nacechowana emocjonalnie, następnie wyświetli taką ocenę, to wszystko. Określimy jeszcze, czy będzie to wyrażone procentowo, czy może jako "niskie", "średnie" i "wysokie".

- Chcemy także udostępniać źródła i sposoby weryfikacji treści: w jaki sposób została oceniona, dlaczego, na jakiej podstawie, jaką miarą. Będziemy tłumaczyć, skąd taka ocena, a nie inna, żeby każdy mógł samodzielnie to przeanalizować i być może później bez niczyjej pomocy weryfikować informacje w sieci.

Kto i jak będzie uczył algorytm?

- To trochę uproszczenie, bo to, co nazywamy "algorytmem", to tak naprawdę wiele algorytmów, których system używa naprzemiennie w razie potrzeby. Sprawdzimy kilka podejść. Jednym z nich jest weryfikacja treści z wykorzystaniem źródeł uznawanych za rzetelne w danym obszarze wiedzy. To najlepsze wyjście, jeśli chodzi o rzeczy sprawdzone już pod kątem stanu faktycznego.

Chcemy także udostępniać źródła i sposoby weryfikacji treści: w jaki sposób została oceniona, dlaczego, na jakiej podstawie, jaką miarą
dr Karol Jędrasiak

- Ale źródła mogą nie pomóc w przypadku nowych zjawisk, nowych informacji, które jeszcze nie zostały nigdzie w kanonie zawarte. W takim wypadku system uznałby takie treści za nieprawdziwe, a tak nie musi przecież być. Z drugiej strony uczenie AI, takich jak chatboty przeznaczone do automatycznej weryfikacji treści, przez użytkowników za każdym razem kończyło się katastrofą, bo nie potrafiły znaleźć treści nieodpowiednich, ucząc się głównie wulgaryzmów.

- Na pewno ślepe uczenie algorytmów poprzez podawanie im suchych informacje nie jest dobre, bo potem mamy taki problem jak na przykład te z pierwszymi pojazdami autonomicznymi: system wykrywa za pomocą kamery, że znajduje się przed nim samochód, ale gdy ten samochód skręca, czyli de facto zmienia kształt na kamerze, to system go już nie widzi.

- O wiele atrakcyjniejszym podejściem jest takie, jakie spotkać możemy na testach w szkołach wyższych albo w tak zwanych Teście Turinga. Każdy może uczyć się czego chce, natomiast to, czy się dobrze nauczył, jest weryfikowane odpowiednim testem. Czyli taki chatbot może uczyć się tej wiedzy, jaką karmią go użytkownicy, ale tak długo, jak zdaje odpowiedni test.

- Dokładnie działa to tak, że definiujemy zestaw kryteriów testowych. Jeśli system zda ten test, to używamy go. W międzyczasie uczymy nowy algorytm nowymi danymi i za jakiś czas, pięć minut, godzinę, dobę, badamy go znowu. Jeżeli wypadnie na teście lepiej od poprzedniego, to korzystamy z tego nowego, a stary odrzucamy. Jeśli gorzej, to zostajemy przy tym poprzednim. Rozwiązanie, które powstanie w ramach tego projektu będzie dopasowane do obecnych potrzeb ale trzeba pamiętać, że fake newsy będą ewoluowały, będą się zmieniać i trzeba będzie ciągle dostosować tego typu narzędzia.

Kiedy projekt będzie gotowy i udostępniony użytkownikom?

Projekt rozpisany jest na 36 miesięcy i trzy etapy weryfikacji po 3 miesiące, więc łącznie 45 miesięcy. Ale po 16, 18 miesiącach powinniśmy mieć już wersję wstępną.

Przez cały czas trwania projektu, w zasadzie od teraz, chcielibyśmy zaprosić do kontaktu wszystkie podmioty, instytucje, grupy, które są chętne do współpracy. Jesteśmy otwarci na pomysły, sugestie i wspólne działania. Postaramy się zorganizować takie forum wymiany myśli, gdzie będziemy omawiać różne idee. Wiadomo, że sami damy rady w całości zwalczyć tak poważnego problemu, jakim jest dezinformacja w sieci.

INTERIA.PL
Masz sugestie, uwagi albo widzisz błąd?
Dołącz do nas