Sztuczna inteligencja IBM generuje naturalny głos na podstawie 5-minutowej próbki

Trenowanie potężnych modeli syntezy mowy, czyli służących zamianie tekstu zapisanego na wypowiedź w postaci dźwiękowej, wymaga potężnych narzędzi, ale amerykański gigant najwyraźniej chce to zmienić.

Sztuczna inteligencja IBM generuje naturalny głos na podstawie 5-minutowej próbkiGeekweek - import

IBM mocno zaangażowało się w rozwój sztucznej inteligencji, co mogliśmy wyraźnie zaobserwować w ciągu ostatnich miesięcy. W tym czasie firma zaprezentowała m.in. kontrowersyjne oprogramowanie potrafiące przewidzieć, kto ma zamiar w najbliższym czasie zwolnić się z pracy, AI diagnozujące raka piersi nawet na rok przed jego wystąpieniem, a także Hypertaste, czyli elektryczny język, który potrafi analizować płyny na obecność niebezpiecznych odpadów i chemikaliów bez konieczności wizyt w laboratorium.

Teraz zaś obserwujemy kolejne potężne narzędzie od tego koncernu, a mianowicie sztuczną inteligencję umożliwiającą łatwiejsze niż kiedykolwiek przekładanie tekstu na mowę. W odróżnieniu od dotychczasowych rozwiązań, nie wymaga ono aż tak ogromnej mocy obliczeniowej, a do tego jest w stanie wygenerować wysokiej jakości dźwięki w czasie rzeczywistym, ucząc się różnych aspektów głosu mówcy i adaptując do nowych stylów i głosów z pomocą niewielkiej ilości danych.

Jak twierdzą badacze IBM, Zvi Kons, Slava Shechtman i Alex Sorin: - Ostatni postęp w zakresie głębokiego uczenia dramatycznie poprawił rozwój systemów syntezy mowy, teraz są one bardziej efektywne i efektywniej uczą się stylu mowy mówcy, generując naturalniejszy dźwięk wysokiej jakości. Wymagają jednak do tego ogromnych i bardzo złożonych sieci neuronowych, są trudne do wytrenowania i nie pozwalają na syntezę w czasie rzeczywistym. Żeby odpowiedzieć na te wyzwania… nasz zespół stworzył nową metodę, bazującą na modularnej architekturze.

Składa się ona z trzech elementów, urządzenia prognozującego prozodię, urządzenia prognozującego aspekt akustyczny oraz neuronowego vocodera. Dzięki podziałowi ról cały proces odbywa się znacznie szybciej, a do tego wymaga tylko niewielkiej ilości danych, tj. próbki mowy. W teście z udziałem ochotników, którzy słuchali generowanego głosu i oceniali jego jakość w porównaniu do naturalnego, okazało się, że system jest w stanie wygenerować dźwięk wysokiej jakości i o dużym podobieństwie do oryginału, a do treningu wystarczy mu 5-minutowa próbka mowy.

Źródło: GeekWeek.pl/