Reklama

Microsoft ujawnia AI, która myśli jak ludzki mózg i naturalnie mówi

W ostatnich latach regularnie słuchamy o możliwościach sztucznej inteligencji, która dokonuje niemal niemożliwego i bez kompleksów przekracza kolejne granice. Dzisiejsze osiągniecie dotyczy zaś konwersji tekstu na mowę.

Nie da się ukryć, że poczyniliśmy w tym zakresie znaczące postępy, ale do tej pory uzyskanie AI, które brzmi naturalnie i wiarygodnie, wiązało się z koniecznością długiego treningu i dużej ilości materiałów szkoleniowych. Dlatego też rozwiązanie opracowane przez Microsoft wspólnie z chińskimi naukowcami może przynieść znaczący przełom w pracach nad efektywnością konwersji tekstu na mowę.

A mowa o sztucznej inteligencji, która jest w stanie wygenerować realistycznie brzmiącą przemowę, wykorzystując tylko 200 próbek głosowych o łącznym czasie trwania 20 minut i pasujące transkrypcje. Wszystko za sprawą transformatorów albo technologii sieci neuronowych, które symulują tutaj część metod działania neuronów w naszym mózgu. Te w locie oznaczają i rozważają każde wejście i wyjście, jaki połączenia synaps, efektywnie pomagając w przetwarzaniu każdej sekwencji informacji.

Reklama

Jeżeli połączymy to z enkoderem usuwającym zakłócenia, to sztuczna inteligencja może naprawdę dużo i to niedużym nakładem czasu i środków. Oczywiście efekty nie są jeszcze perfekcyjne i wciąż możemy wychwycić delikatny robotyczny pogłos, ale jeśli chodzi o dokładność, to nie można jej nic zarzucić, bo zrozumiałość wymowy wynosi 99,84%. Poza tym, rozwiązanie jest dość proste w implementacji, więc może sprawić, że konwersja tekstu do mowy stanie się przystępna dla większej ilości użytkowników.

Teraz nie trzeba już bowiem spędzać długich godzin w skomplikowanych programach do edycji, żeby uzyskać realistycznie brzmiący głos, dzięki czemu metodę tę będą mogły stosować również niewielkie firmy oraz amatorzy. Co więcej, autorzy nowego rozwiązania chcą je dalej udoskonalać, trenując na niepowiązanych danych, dzięki czemu istnieje szansa na prowadzenie z AI realistycznych dialogów, a nie tylko odczytywanie przez nie zapisanego tekstu.

Źródło: GeekWeek.pl/engadget

Geekweek

Reklama

Reklama

Reklama

Reklama

Reklama