Studenci nauczyli komputery NASA, jak korzystać z... Reddita

Studenci Uniwersytetu Kolumbii Brytyjskiej opracowali algorytm, za pomocą którego komputery NASA mogą zbierać dane w nietypowym dla siebie miejscu, a mianowicie serwisie Reddit i tym samym ulepszyć bazy danych oraz systemy przewidywania katastrof.

Studenci Uniwersytetu Kolumbii Brytyjskiej opracowali algorytm, za pomocą którego komputery NASA mogą zbierać dane w nietypowym dla siebie miejscu, a mianowicie serwisie Reddit i tym samym ulepszyć bazy danych oraz systemy przewidywania katastrof.
Studenci pomogą NASA zbierać dane na Reddicie /mapa - NASA /AFP

A wydawać by się mogło, że legendarne komputery NASA potrafią wszystko... a mówiąc całkiem poważnie, Uniwersytet Kolumbii Brytyjskiej poinformował, że zespół jego studentów w ramach swojej pracy magisterskiej przygotował specjalny algorytm, który pozwolił nauczyć komputery "czytania" informacji na temat osuwisk na Reddicie. Jak to działa? W ramach projektu nadzorowanego przez BGC Engineering Inc. i amerykańską agencję kosmiczną studenci opracowali narzędzie, które skanuje serwis w poszukiwaniu wpisów o osuwiskach we wskazanych widełkach czasowych, a następnie wyciąga z nich ważne informacje.

Reklama

Automatycznie przeszukuje Reddita w poszukiwaniu informacji o osuwiskach

W pierwszej kolejności system decyduje, czy artykuł faktycznie dotyczy osuwisk (a nie tylko używa podobnego sformułowania w innym kontekście), a następnie model przetwarzania języka naturalnego wytrenowany na danych dotyczących osuwisk wyciąga z niego informacje na temat tego gdzie i kiedy doszło do osuwiska, co je spowodowało i ile osób zostało rannych/zabitych. Tak wyodrębnione dane mogą zostać umieszczone w publicznej bazie danych COOLR, czyli Cooperative Open Online Repository, która pozwala przewidywać, gdzie i kiedy wystąpią podobne zdarzenia.

Co bardzo ważne, narzędzie działa bardzo szybko w porównaniu z "ręcznym" przeszukiwaniem serwisów, by uzupełnić dane o osuwiskach i zdaniem naukowców jest w stanie w ciągu kilku minut ukończyć zadania, które wcześniej zajmowały miesiące. To bardzo istotne, bo zdaniem Światowej Organizacji Zdrowia nie mamy zbyt wielu danych na temat osuwisk, tymczasem są bardziej rozpowszechnione niż jakiekolwiek inne zdarzenia geologiczne, a przy tym niezwykle destrukcyjne.

Im więcej informacji uda się o nich zebrać, tym dokładniej można przewidzieć ich występowanie i tym samym uratować więcej żyć. Co więcej, zautomatyzowany proces może uwolnić zasoby ludzkie, które można wykorzystać do prowadzenia ważnych badań i tym samym jeszcze bardziej zwiększyć skuteczność systemów przewidywania. 

Jak przekonują autorzy projektu, teoretycznie nic nie stoi na przeszkodzie, by wykorzystać to samo narzędzie do analizy innych serwisów społecznościowych, ale z kilku powodów zdecydowali się zacząć od Reddita. Po pierwsze, jego interfejs programistyczny jest dostępny bezpłatnie, w odróżnieniu np. od Twittera, a do tego wykorzystanie tego ostatniego oznaczałoby ogromną liczbę danych, z których przetworzeniem początkujące rozwiązanie mogłoby mieć problemy. Niemniej program można rozszerzyć na inne serwisy, a także inne katastrofy naturalne, np. trzęsienia ziemi.

INTERIA.PL
Reklama
Reklama
Reklama
Reklama
Reklama