„Ze względu na mnogość obecnych i potencjalnych zastosowań komputer, który potrafi dekodować ludzką mowę (co jest nazywane automatycznym rozpoznawaniem mowy), stanowi bardzo cenny wynalazek.
Fonemy są tworzone przez struny głosowe, wargi, język, zęby, usta i jamę nosową. W języku angielskim używamy około 16 różnych dźwięków samogłoskowych i 24 spółgłoskowych, co umożliwia tworzenie około 10 tysięcy różnych sylab. Ludzie zwykle mówią w tempie około trzech słów, czyli 18 fonemów. na sekundę. Jeśli dodamy do tego, że rzadko wymawiamy to samo słowo dwa razy dokładnie w taki sam sposób (zmieniamy dynamikę i nacisk, zależnie od kontekstu), mówimy z różną szybkością, odpowiednio do sytuacji, nastroju i pory dnia a nasza mowa różni się w zależności od płci, wieku i regionu stanie się jasne, że problem jest niezwykle złożony.
Jeszcze większych trudności przysparza naukowcom fakt, że kiedy mówimy, zlewamy wyrazy w długie zbitki dźwięków. Ludzie rozszyfrowują takie zbitki natychmiast, bez żadnego wysiłku, po części dlatego, że rozumieją sens i kontekst konwersacji. Podobnie jak w przypadku wzroku, także w przypadku słuchu mamy interesującą zdolność oddzielania pierwszego planu od tła potrafimy na przykład oddzielić głos osoby, z którą rozmawiamy na przyjęciu, od innych głosów i hałasów. Maszyny muszą stosować inne metody.“(7)


spis firm |forum |maty treningowe