O tym, aby człowiek mógł wydawać polecenia komputerowi głosem, myślano od dawna. Pierwsze próby prowadzono już w 1952 r., kiedy zespół konstruktorów w laboratoriach Bella opracował system komputerowy, który rozpoznawał dyktowane cyfry od zera do dziewięciu oraz słowa "tak" i "nie". Wypowiadane wyrazy trzeba było rozdzielać długimi pauzami, bo inaczej system popełniał błędy.
Ta cecha pozostała w wielu rozwiązaniach stosowanych też współcześnie, ale pojawiły się także systemy potrafiące rozpoznawać mowę ciągłą - słowa są wypowiadane bez przerw, tak jak w zwykłej rozmowie, ale wymaga to najczęściej szybkich komputerów. Wiele systemów rozpoznawania mowy potrzebuje najpierw treningu z użytkownikiem, jednak niektóre same z czasem potrafią się przystosowywać do specyficznych cech wymowy poszczególnych osób. Porozumiewanie się z komputerem staje się coraz bardziej zbliżone do języka naturalnego. Na to, aby z maszyną można było naprawdę swobodnie rozmawiać, trzeba poczekać jedną lub dwie dekady.
Warto od razu rozróżnić dwa stosowane, często nieprawidłowo, zamiennie terminy: rozpoznawanie głosu (voice recognition) i rozpoznawanie mowy (speech recognition). Pierwszy dotyczy identyfikacji głosu konkretnej osoby i technologia ta stosowana jest coraz częściej jako metoda zabezpieczeń danych lub pomieszczeń. Rozpoznawanie mowy to zamiana wypowiedzi użytkownika na plik tekstowy lub na komendy zrozumiałe dla systemu komputera.
Jak to się robi
Jak więc działa rozpoznawanie mowy? Pierwszym etapem tego procesu jest zamiana fal dźwiękowych na postać cyfrową - możliwą do przetwarzania przez program. W komputerach PC może służyć do tego po prostu 16-bitowa karta dźwiękowa. W innych specyficznych zastosowaniach są to specjalizowane przetworniki analogowo-cyfrowe, wykorzystujące w obróbce sygnału także tzw. procesory DSP (Digital Signal Processing).