Komputer zrozumie

Reklama

O tym, aby człowiek mógł wydawać polecenia komputerowi głosem, myślano od dawna. Pierwsze próby prowadzono już w 1952 r., kiedy zespół konstruktorów w laboratoriach Bella opracował system komputerowy, który rozpoznawał dyktowane cyfry od zera do dziewięciu oraz słowa "tak" i "nie". Wypowiadane wyrazy trzeba było rozdzielać długimi pauzami, bo inaczej system popełniał błędy.

Ta cecha pozostała w wielu rozwiązaniach stosowanych też współcześnie, ale pojawiły się także systemy potrafiące rozpoznawać mowę ciągłą - słowa są wypowiadane bez przerw, tak jak w zwykłej rozmowie, ale wymaga to najczęściej szybkich komputerów. Wiele systemów rozpoznawania mowy potrzebuje najpierw treningu z użytkownikiem, jednak niektóre same z czasem potrafią się przystosowywać do specyficznych cech wymowy poszczególnych osób. Porozumiewanie się z komputerem staje się coraz bardziej zbliżone do języka naturalnego. Na to, aby z maszyną można było naprawdę swobodnie rozmawiać, trzeba poczekać jedną lub dwie dekady.

Warto od razu rozróżnić dwa stosowane, często nieprawidłowo, zamiennie terminy: rozpoznawanie głosu (voice recognition) i rozpoznawanie mowy (speech recognition). Pierwszy dotyczy identyfikacji głosu konkretnej osoby i technologia ta stosowana jest coraz częściej jako metoda zabezpieczeń danych lub pomieszczeń. Rozpoznawanie mowy to zamiana wypowiedzi użytkownika na plik tekstowy lub na komendy zrozumiałe dla systemu komputera.

Jak to się robi

Jak więc działa rozpoznawanie mowy? Pierwszym etapem tego procesu jest zamiana fal dźwiękowych na postać cyfrową - możliwą do przetwarzania przez program. W komputerach PC może służyć do tego po prostu 16-bitowa karta dźwiękowa. W innych specyficznych zastosowaniach są to specjalizowane przetworniki analogowo-cyfrowe, wykorzystujące w obróbce sygnału także tzw. procesory DSP (Digital Signal Processing).

Reklama

Drugim i najważniejszym etapem jest właściwe rozpoznanie mowy oraz zamiana jej na tekst. Aby tego dokonać, komputer przechowuje w pamięci wzory fonemów - najmniejszych elementów znaczących języka, tworzących wyrazy. Fonem jest, najprościej rzecz ujmując, metoda logicznego odzwierciedlenia głoski. Większość języków ma 50 lub mniej fonemów, np. w angielskim jest ich tylko 40. Z rozpoznanych fonemów komputer tworzy w swojej pamięci słowa, używając do tego także analizy kontekstu, w jakim fonemy występują.

Rozbicie wyrazu na fonemy powoduje, że komputer musi tak naprawdę sprawnie rozpoznać tylko kilkadziesiąt elementów. W przypadku rozpoznawania całych wyrazów, byłoby ich o wiele więcej - języki mają przecież po kilkadziesiąt tysięcy wyrazów. Aby usprawnić rozpoznawanie mowy, systemy nie tylko "domyślają się" w razie wątpliwości, jaka głoska może występować po innej, ale także na podstawie kontekstu mogą przewidywać prawdopodobieństwo występowania obok siebie całych wyrazów. Rozwiązanie takie jest stosowane w systemach, które mają rozpoznawać mowę zbliżoną do naturalnej, a nie tylko reagować na określone komendy. Mechanizmy analizy kontekstu są budowane m.in. na podstawie statystyk prowadzonych przez językoznawców, badających miliony stron tekstu. Trzeba wspomnieć, że rozpoznawanie mowy korzysta często z mechanizmów sztucznej inteligencji, w tym sieci neuronowych. To ostatnie jest stosowane m.in. w systemach, które przystosowują się do użytkowników - uczą się jego sposobu wymowy, słownictwa i metody budowania zdań.

Ostatnim zadaniem systemu rozpoznawania mowy jest komunikacja programu lub modułu z innym programem lub urządzeniem.

Na rynku jest tylko kilku liczących się dostawców systemów rozpoznawania mowy. Należy do nich IBM ze swoją rodziną oprogramowania ViaVoice. Firma koncentruje się raczej na licencjonowaniu swoich rozwiązań dostawcom oprogramowania, którzy mogą dołączyć do swoich pakietów możliwość sterowania głosem. Dostępne są także gotowe pakiety ViaVoice dla różnych platform: Windows, Linux, Mac.Innym liczącym się dostawcą na rynku jest firma Lernout & Hauspie. Specjalizuje się ona w rozwiązaniach dla służby zdrowia, firm prawniczych oraz edukacji. Została założona w 1987 r. i obecnie notuje rocznie obroty rzędu setek milionów dolarów. Jednym z większych osiągnięć L&H jest program pozwalający na dyktowanie tekstu w języku chińskim. Produkt ten powstał po długotrwałych badaniach, na które przeznaczono 5 mln dolarów. W ub.r. Lernout & Hauspie przejął innego wiodącego producenta oprogramowania rozpoznawania mowy - firmę Dragon Systems.

Mowa w biznesie

Chociaż nie zawsze rozpoznawanie mowy działa bezbłędnie, znajduje coraz więcej zastosowań. Klientem dla tego typu rozwiązań są m.in.: telekomunikacja, e-business, przemysł samochodowy i wojsko.

Reklama

Najogólniej rzecz biorąc, zastosowania tych systemów można podzielić na dwa obszary - systemy do dyktowania i systemy do wydawania komend komputerowi. Właśnie ten drugi obszar wydaje się zyskiwać coraz większą popularność w biznesie.

Największym klientem dla systemów rozpoznawania mowy jest sektor telekomunikacyjny oraz telefoniczne centra obsługi klienta (call centers). Według prognozy Gartner Group, już za kilka lat 30% linii w call centers będzie korzystało z rozpoznawania mowy i mają one zastąpić stosowane powszechnie systemy reagujące na polecenia wydawane za pomocą telefonu z klawiaturą tonową.

Przykładem wykorzystania rozpoznawania mowy w obsłudze klienta może być dom maklerski Fidelity Investment, który za pomocą automatycznego systemu kierowanego głosem pozwala dowiedzieć się klientom przez telefon o ceny akcji i sprawdzić stan rachunku. Klienci mogą także złożyć zlecenie na zakup 16 tys. papierów wartościowych i dokonywać innych operacji na swoim rachunku. Podobny system wprowadziło biuro maklerskie E TRADE. Według badania Gartnera, 20-30% klientów E TRADE jest zadowolonych z systemu rozpoznawania mowy, ale tylko 10% używa wyłącznie tej formy komunikacji. Pozostali korzystają także z klawiatury tonowej.

Inne zastosowanie systemów rozpoznawania mowy to aplikacje obsługi łańcucha dostaw. Chodzi np. o to, aby pracownicy w zakładach czy magazynach, potrzebując jakiegoś elementu czy towaru, mogli do mikrofonu wydawać proste komendy urządzeniom, bez konieczności długotrwałego wpisywania ich na klawiaturze. Tego rodzaju systemy mają w USA już wiele wdrożeń. Rozpoznawanie mowy stosuje się także w oprogramowaniu klasy ERP. Np. firma Speech Works International oferuje moduł rozpoznawania mowy do aplikacji SAP R/3. Dzięki takiemu rozwiązaniu reprezentant handlowy firmy może dowiedzieć się o stanach magazynowych towaru, dzwoniąc pod odpowiedni numer ze zwykłego telefonu i zadając systemowi komputerowemu głosem proste pytania.

Kupuj głosem

Wraz z udoskonaleniem rozpoznawania mowy, wiele firm myśli o wykorzystaniu tej techniki do sprzedaży produktów. Sprzedawcy mają nadzieję, że możliwość zamawiania towarów głosem przyciągnie nowych klientów, bo jest to przecież najbardziej naturalna forma komunikowania się człowieka. Wdrożeniami v-commerce (voice commerce) są zainteresowane zarówno firmy katalogowe, prowadzące sprzedaż wysyłkową towarów na telefon, jak i serwisy internetowe, które chcą zaoferować klientom oprócz "klikania myszką" także nieco inną formę zakupów. Firmy e-commerce planują zarówno umożliwienie zamawiania towarów głosem przez zwykły telefon, jak i dokonywanie wyboru produktu głosem po połączeniu się internetem z serwisem www. W tym drugim przypadku mówimy o transmisji głosu w technice Voice over Internet Protocol. Aby korzystać z zamawiania towarów głosem w witrynach e-commerce, internauta musi dysponować multimedialnym komputerem i dość szybkim łączem internetowym.

Reklama

Dostawcy technologii i oprogramowania coraz poważniej traktują głos jako nowe rozwiązanie dla e-commerce. Jednym z czołowych producentów pakietów rozpoznawania mowy dla serwisów internetowych jest firma Nuance Communications. Powołała ona tzw. grupę v-commerce Alliance, która stawia sobie jako cel opracowywanie standardów służących do rozpoznawania mowy w internecie. Grupa zrzesza dostawców sprzętu i oprogramowania, m.in. firmy: BroadVision, Calico Technology, Edify, General Magic i Visa. Powstało także inne konsorcjum złożone z: AT&T, IBM, Lucent Technologies i Motoroli, które proponuje wprowadzenie nowego standardu opisu strony www, tzw. VXML, czyli rozszerzenia języka XML o możliwości głosowe.

Chociaż prace nad technologiami rozpoznawania mowy trwają już pół wieku, trudno obecne uznać je za bezbłędne. Według danych Dataquest, aż 50% użytkowników nie korzysta z zakupionych przez siebie programów rozpoznawania mowy. Systemy rozpoznawania mowy są jednak już na tyle dojrzałe, że znajdują swoje zastosowania w różnych dziedzinach biznesu od lat osiemdziesiątych. Upowszechnienie komputerów osobistych, urządzeń elektronicznych powszechnego użytku oraz internetu daje obecnie dodatkowy impuls do udoskonalania tych rozwiązań. Konsumenci, domowi użytkownicy PC, internauci chcą jak najłatwiej komunikować się z maszynami. Oczywistym rozwiązaniem jest komunikacja mową, językiem zbliżonym do naturalnego. Na to, aby z komputerem można było uciąć sobie pogawędkę, trzeba będzie jednak jeszcze poczekać...

Mowa na PC

Każdy użytkownik komputera PC może sprawdzić, jak działa w praktyce rozpoznawanie mowy, ale trzeba do tego zaopatrzyć się w odpowiednie oprogramowanie.

Jeżeli ktoś chce wydawać głosem komendy przy odtwarzaniu płyt DVD czy plików MP3, powinien kupić pakiet Microsoft Plus! dla Widnows XP. Pozwala on na obsługę programu Windows Media Player za pomocą rozkazów głosowych.

Reklama

Użytkownicy szukający narzędzia do dyktowania tekstu, mogą zainteresować się oprogramowaniem ViaVoice firmy IBM. Kosztuje ono w Polsce około 180 euro i jest dostępny w wersjach dla Windows i komputerów Macintosh. Pakiet w zestawie zawiera także specjalny mikrofon. ViaVoice świetnie może służyć jako narzędzie do wprowadzania danych głosem, np. do aplikacji Microsoft Office. Głosem można także wydawać makropolecenia. Wymagania sprzętowe programu nie są wygórowane - procesor 300 MHz (w przypadku Windows Me 600 MHz), 64 MB RAM. Pakiet może rozpoznawać język angielski i kilka innych europejskich, ale niestety nie polski.

Gospodarka

Komputer zrozumie