Call center przyszłości
Rozmowy z maszynami od dawna nie są już dziedziną jedynie z zakresu science-fiction, ale rzeczywistością. Automaty mówią do nas za pośrednictwem infolinii czy w postaci wirtualnych doradców na stronach WWW instytucji czy firm. Przyzwyczajamy się do nich i tak naprawdę już nas nie dziwi ani nie zastanawia dialog z maszyną. Co jednak stoi za takim rozwiązaniem?
Głosowa interakcja z automatem opiera się na zamianie mowy na tekst i tekstu na mowę. Dzięki wciąż udoskonalanym technologiom takie przekształcanie jest coraz płynniejsze, doskonalsze i bardziej naturalne. Tego typu rozwiązania sprawiają, że choćby życie klienta dzwoniącego na infolinię i załatwianie spraw przez telefon staje się dużo prostsze. Wiemy przecież sami, jak bardzo frustrujące jest, gdy dzwoniąc, musimy czekać na zgłoszenie się operatora, a dla "umilenia czasu" słuchamy melodyjek, tracąc tym samym czas i pieniądze. Nie do końca sprawdzającym się i lubianym przez klientów rozwiązaniem jest również korzystanie z systemów samoobsługowych, czyli opcji wybierania tonowego, tzw. DTMF.
Lekarstwem na wyżej opisane problemy jest między innymi zastosowanie właśnie technologii rozpoznawania mowy ASR, czyli Automatic Speech Recognition, zintegrowanej z interaktywną obsługą osoby dzwoniącej (IVR, czyli Interactive Voice Response) oraz syntezą mowy (TTS, czyli Text To Speech). Dzięki tym technologiom jesteśmy w stanie obsłużyć klienta bez udziału osoby pozostającej fizycznie z drugiej strony słuchawki. Użytkownik dziś może powiedzieć, jakiej transakcji chce dokonać, nie musi wysłuchiwać kilku opcji, zanim dojdzie do tej, która go interesuje. Może również swobodnie zadać pytanie, które zostanie przekonwertowane na żądania zrozumiałe dla bazy danych - odpowiedź otrzyma za pośrednictwem syntezatora głosu.
Jak to działa?
Nowoczesne systemy teleinformatyczne stosowane np. w call centers opierają się na technologiach rozpoznawania oraz syntezy mowy. W największym uproszczeniu mówiąc, systemy rozpoznawania mowy zamieniają wypowiedziane słowa na tekst, natomiast syntezatory dokonują rzeczy odwrotnej - przekształcają tekst na sygnał mowy. Bardziej skomplikowanym procesem jest rozpoznanie mowy. Składa się z kilku różnych etapów mających za zadanie odwzorowanie kilku aspektów mowy - od fali akustycznej, poprzez gramatykę, aż po semantykę. W procesach tych wykorzystywane są m.in. sieci neuronowe, które naśladują działanie ludzkiego mózgu. Dzięki rozpoznawaniu znaczenia wypowiedzi osoby dzwoniącej np. do call center automat może odpowiednio zareagować, co zbliża interakcję z maszyną do rozmowy z człowiekiem.
Aby w takiej rozmowie przekazać pożądane treści dzwoniącemu, trzeba przekonwertować odpowiedni tekst na mowę. Syntezatory mowy korzystają z bardzo dużego korpusu nagranych zdań. Korpus służy do stworzenia bazy mniejszych (fonemów) i większych fragmentów mowy. Zamiana tekstu na mowę polega właściwie na zamianie go w ciąg fonemów i dobranie do niego odpowiedniej sekwencji fragmentów mowy. Scalenie tych fragmentów daje wypowiedź, która jest odpowiedzią na zapytanie klienta.
Przez lata syntezatory mowy były udoskonalane. Początkowo teksty przez nie tworzone były - delikatnie powiedziawszy - dość toporne. Dawało się w nich wyraźnie usłyszeć sylabizowanie, automaty nie czytały prawidłowo dat czy godzin. Dziś nowe systemy dają wyjątkowe możliwości - teksty przez nie generowane są płynne, mają odpowiednią intonację i akcent. Nowoczesne rozwiązania gwarantują też poprawne odczytanie niestandardowych znaków. Dzięki temu rozmawiający z maszyną może mieć wrażenie, że prowadzi dialog z żywą osobą.
Jestem maszyną. W czym mogę Ci pomóc?
Automatyczny system rozpoznawania mowy w połączeniu z syntezatorem mowy może odpowiadać na np. najczęściej zadawane pytania lub informować o stanie zamówienia lub rezerwacji, może również zautomatyzować proces identyfikacji i weryfikacji klienta niezależnie od systemów speaker verification- dzięki wykorzystaniu zestawu gotowych pytań system bez problemu rozpozna osobę, która dzwoni. System rozpoznawania mowy może również być pomocny przy ustalaniu celu połączenia telefonicznego i może kierować dzwoniącego do odpowiednich zasobów, np. działu lub agenta (wystarczy podać nazwę departamentu firmy lub wybrane nazwisko) albo może pomóc w zbieraniu od użytkowników danych osobowych przy użyciu aplikacji rozpoznania mowy (contact capture).
Zastosowanie technik automatycznego rozpoznawania i analizy mowy umożliwia wykrycie zjawisk w pracy call center, które normalnie wymagałyby ręcznego przesłuchania setek godzin nagrań, poprawia znacząco jakość obsługi klienta (użytkownik nie musi czekać na połączenie z konsultantem ani wybierać tonowo poszczególnych opcji). Wszystko to powoduje wzrost jakości świadczonych usług, a także gwarantuje obniżenie kosztów pracy call/contact center.
Futurystyczne jeszcze niedawno wizje maszyn i robotów, które zastępują ludzi w wykonywaniu niektórych prac, stają się faktem. W tym przypadku technologie ułatwiają życie i przyspieszają proces zdobywania informacji, służąc tak firmom i instytucjom, jak i ich klientom. Intensywny rozwój w tej dziedzinie cały czas trwa, wciąż zatem wiele przed namiJanusz Tomiczek