Zrobiłam digitalową kopię mojego głosu. Wystarczy 30 minut i AI robi magię

Wszyscy chyba kojarzymy charakterystyczny głos syntezatora mowy IVONA. W czasach swojej świetności na pewno bywał przydatny, jednak trudno odmówić mu tego, że jego brzmienie pozostawiało wiele do życzenia. Polski syntezator podbił świat, przez moment grał pierwsze skrzypce w memach i najpewniej na zawsze wyrył się w pamięci użytkowników internetu, którzy choć raz go usłyszeli.

Potrzebujesz jedynie około 30 minut, komputera z internetem, w miarę dobrego mikrofonu i trochę cierpliwości123RF/PICSEL

Nie tak dawno mogliśmy przeczytać w sieci wzruszającą historię o kobiecie, która regularnie przychodziła na konkretny przystanek londyńskiego metra. Po co? Aby usłyszeć głos swojego zmarłego męża, którego nagranie odczytywało nazwę lokacji.

Co łączy te dwie anegdoty? Przede wszystkim nagranie głosu. Istnieje pewne narzędzie, które pozwala nam na stworzenie własnego syntetycznego głosu. Proces jest bardzo łatwy i wymaga od nas niewiele - zaledwie kilkudziesięciu minut i znalezienia umiarkowanej jakości mikrofonu. Reszta dzieje się niemal sama.

Jak zrobić digitalową kopię głosu? Umożliwia to Acapela

Aby wykonać syntetyczną wersję naszego głosu, musimy przedsięwziąć kilka kroków. Przede wszystkim musimy wejść na stronę mov.acapela.com. Tam przechodzimy do sekcji "Start Now". Koniecznym jest wypełnienie formularza, wysłanie go, a następnie oczekiwanie na własny login i hasło. Te przychodzą do nas na maila.

Gdy już je otrzymamy, logujemy się na stronie. Przed rozpoczęciem nagrań, jesteśmy oczywiście zobowiązani do przeczytania warunków skorzystania z narzędzia.

Nagrania możemy wykonać poprzez aplikację MOV Recorder lub wersję webową. Na wstępie zostaniemy poproszeni o policzenie od jednego do czterech, by skalibrować mikrofon.

Będziemy mogli zauważyć bardzo łatwy w obsłudze panel na dole strony. Czeka nas bowiem nagranie próbki głosu poprzez przeczytanie 50 losowych zdań. Pochodzą one z różnych miejsc - najpewniej w powieści, artykułów, ale i np. przepisów kulinarnych.

Zrzut ekranu ze strony mov.acapela-group.comInteria.plmateriał zewnętrzny

To właśnie na panelu będziemy mogli rozpocząć nagrywanie, odsłuchać nagrane zdanie, cofnąć się, by coś poprawić lub przejść dalej. Jak szybko nagrywa się to 50 zdań? To zależy - na stronie czytamy o 20 lub 30 minutach, mi zajęło to około 45 minut, biorąc pod uwagę skaczącego po mieszkaniu kota. Nie musimy nagrywać tego przy jednym podejściu, możemy robić pauzy i dzielić sobie materiał na części (długie odstępy czasowe są jednak niezalecane, ponieważ nasz głos może się różnić).

Zrzut ekranu ze strony mov.acapela-group.comInteria.plmateriał zewnętrzny

Co możemy przeczytać na stronie, to że warto zadbać o możliwie jak najbardziej sprzyjające warunki nagrań, czyli najlepiej byłoby skorzystać ze studia do tego przeznaczonego, ale... Aby uwiarygodnić doświadczenie, postanowiłam po prostu zrobić to w domu, używając średniej jakości mikrofonu w słuchawkach.

Skoro o mikrofonie mowa, to warto wspomnieć, że co do niego też są wskazówki - im lepszy, tym... lepiej, natomiast najważniejszą zdaje się uwaga, aby nie korzystać z mikrofonu wbudowanego w laptopa. Potrzebujemy zatem komputera, połączenia internetowego, wolnej chwili oraz w miarę dobrego mikrofonu.

To jest dobry moment na to, aby wspomnieć, że możemy nie tylko przeczytać 50 losowych zdań, ale i... nagrać personalizowane wiadomości (do 300).

W jakim języku można nagrać swój głos? Wybór jest dość spory

Właściwie muszę przyznać, że byłam dość zdziwiona, gdy na liście zobaczyłam także język polski.

Do wyboru mamy:

Arabski
Kataloński
Czeski
Duński
Niderlandzki (Belgia)
Niderlandzki (Niderlandy)
Angielski (Australia)
Angielski (Zjednoczone Królestwo)
Angielski (Stany Zjednoczone)
Fiński
Francuski (Francja)
Francuski (Kanada)
Niemiecki
Grecki
Włoski
Norweski
Polski
Hiszpański (Hiszpania)
Hiszpański (Stany Zjednoczone)
Szwedzki (Szwecja)
Turecki

Co istotne, to że założenie konta czy nagranie swojego głosu nie jest jednoznaczne z tym, że będziemy musieli zapłacić za usługę. Pieniądze przelewamy tylko wtedy, gdy chcemy pobrać nasz syntetyczny głos i zainstalować go na urządzeniach. Jeżeli jednak na ten moment chcemy tylko sprawdzić możliwości narzędzia, możemy to zrobić bezpłatnie. Jeśli kiedykolwiek będziemy potrzebowali digitalową kopię naszego głosu, możemy wpłacić pieniądze, aby następnie użyć go na dowolnym kompatybilnym systemie generowania mowy z tekstu.

Nagrania są usuwane z serwerów zaraz po stworzeniu naszego głosu. Nasz syntetyczny głos jest z kolei przechowywany przez rok od utworzenia — jeżeli chcemy być pewni, że zostanie on usunięty, możemy o to poprosić.

Po co to komu, czyli kto skorzysta z możliwości stworzenia syntetycznego głosu

Na pierwszy rzut oka może to po prostu wyglądać jak ciekawa możliwość na przetestowanie narzędzia i zaznajomienie się z procesem. Ale to rozwiązanie przyda się zdecydowanie w inny, ważniejszy sposób - wiele osób, które zmagają się z różnymi ciężkimi chorobami wie, że w ciągu kilku miesięcy lub lat może nie być w stanie mówić dobrze albo w ogóle. Syntetyczny głos może być ich sposobem na komunikowanie się.

Nie bez powodu wspomniałam też o kobiecie odwiedzającej stację londyńskiego metra - nasi bliscy odchodzą, z czym pozostaje nam się pogodzić. Wiele osób z pewnością dałoby jednak wiele, aby móc ponownie usłyszeć utracone osoby. Tego typu narzędzie może pomóc tym, którzy wiedzą, że już wkrótce ich zabraknie, a chcieliby pozostawić bliskim coś bezcennego.

Otrzymałam próbkę mojego głosu. Jest... dziwnie

To wcale nie znaczy, że źle. Stało się po prostu to, czego można się było spodziewać. Ale może od początku.

Gdy nasz syntetyczny głos będzie gotowy, zostaniemy o tym powiadomieni przez maila. Wtedy wystarczy wejść na znaną nam już stronę, udać się do sekcji "Your Account", tam "Recordings" i przy nagranym języku zauważymy napis "Voice available for listening" oraz przycisk umożliwiający zakup.

Zrzut ekranu ze strony mov.acapela-group.comInteria.plmateriał zewnętrzny

Jeżeli wybierzemy przedostatnią opcję, możemy posłuchać próbki naszego głosu. To również jest bardzo proste — w okienko wpisujemy to, co nasz głos ma powiedzieć i klikamy "Listen". Możemy też zmieniać np. szybkość wypowiedzi.

Zrzut ekranu ze strony mov.acapela-group.comInteria.plmateriał zewnętrzny

Muszę przyznać, że nie ułatwiłam zadania swoim nagraniem. Nie było najlepsze, użyłam przeciętnych słuchawek, w dodatku zdaje się nawet, że nie zamknęłam okna. Ale próbkę głosu otrzymałam i serio, brzmi jak mój. Nie jest idealny, da się rozpoznać, że coś jest nie tak... Jednak trzeba też pamiętać o tym, że mój mózg trochę walczy z tym, że słyszy słowa wypowiadane głosem ewidentnie nacechowanym w ten sposób, że przypomina mój, widzi słowa, które sama wpisałam, ale wie, że przecież nic nie mówię. Jest to bardzo dziwne doświadczenie, które aż trudno opisać.

Z pewnością jakość otrzymanej próbki (i tym samym docelowego głosu) byłaby lepsza, gdyby faktycznie wykonać nagrania w specjalnym studio albo chociaż z profesjonalnym mikrofonem, w absolutnej ciszy. Jeżeli głos ma nam później posłużyć, zdecydowanie warto przyłożyć się do tego, aby był jak najlepszy.

Holenderski młyn do mielenia pigmentów. Pracuje tak jak 400 lat temuAFPTV / AFPAFP

Jak zrobić digitalową kopię głosu? Umożliwia to Acapela

W jakim języku można nagrać swój głos? Wybór jest dość spory

Po co to komu, czyli kto skorzysta z możliwości stworzenia syntetycznego głosu

Otrzymałam próbkę mojego głosu. Jest... dziwnie

Najnowsze