SI potrafi rozpoznawać obiekty po ich opisie. Przełom w wirtualnych tłumaczach
Technologie rozpoznawania mowy są obecnie raczej nieporadne i wymagają ogromnej ilości adnotacji oraz transkrypcji, by zrozumieć to, do czego się odwołujemy. Wkrótce może to jednak ulec zmianie.
Chciałoby się rzec, że sztuczna inteligencja to lek na wszystkie bolączki i tam, gdzie człowiek nie daje sobie rady, SI pośle. Naukowcy mają bowiem pomysł na bardziej naturalne rozpoznawanie mowy, ucząc algorytmy identyfikujące rzeczy w taki sposób, jak byśmy próbowali nauczyć dziecko.
W tym celu opracowali oni system maszynowego uczenia, który jest w stanie rozpoznać przedmiot, bazując na jego opisie. Dzięki temu opisując niebieską bluzkę na obrazku, ten zaznaczy stosowne ubranie bez konieczności stosowania żadnych manualnych transkrypcji, proces przebiegnie automatycznie.
Zespół odpowiedzialny za tę technologię rozpoczął od dotychczas stosowanego podejścia, gdzie dwie sieci neuronowe przetwarzają zarówno obraz, jak i spektrogram audio, ucząc się w ten sposób, jak przypasować opis dźwiękowy do obrazka zawierającego pożądany obiekt. Następnie zmodyfikowali sień neuronową odpowiedzialną za przetwarzania obrazu, by podzielić go na sieć komórek, a w tym samym czasie sieć audio pocięła dźwięk na krótkie (1-2 sekundowe) urywki.
Po sparowaniu poprawnego obrazka z nagłówkiem, system SI szkoli się, bazując na tym, jak dobrze segmenty audio pasują do obiektów na siatce komórek. W gruncie rzeczy sprowadza się to do podobnego rozwiązania, jakbyśmy mówili dzieciom, na co patrzą, opisując wskazywane obiekty i nazywając je.
Potencjalnych zastosowań dla tego rozwiązania jest wiele, ale naukowcy największych nadziei upatrują w tłumaczeniach. Zamiast bowiem korzystać z dwujęzycznego tłumacza, który stara się tworzyć połączenia, możliwe będą rozmowy wielu osób posługujących się różnymi językami, ale opisującymi te same rzeczy. System w takim przypadku zakładać będzie, że uczestnicy konwersacji używają jednego opisu w odmiennym języku. Pozwoli to także na tłumaczenie zdecydowanie większej puli języków niż umożliwiają to dotychczasowe technologie.
Źródło: GeekWeek.pl/MIT