语音数据
将语音转换成屏幕上的文本或一个计算机命令,计算机必须通过几个复杂的步骤。当你说话时,你创造出空气的振动。的模拟-数字转换器(ADC)这模拟波转换为计算机可以理解的数字数据。要做到这一点,它样品或数字化,波的声音通过精确测量。系统过滤器数字化声音去除不必要的噪音,有时分离成不同的乐队频率(频率声波的波长,由人类不同的音高)。它还可实现声音,或调整一个体积恒定的水平。它也可能暂时对齐。人们并不总是以同样的速度说话,所以声音必须匹配模板的速度调整声音样本已经存储在系统的内存。
下一个信号分成小段短的百分之几秒,甚至四舍五入的情况破裂音辅音——辅音阻碍气流停止生产的声道,“p”或“t”。的program then matches these segments to known音素在适当的语言。一种语言的音位是最小的元素,我们发出的声音的表示和放在一起形成有意义的表达。英语中大约有40个音素(确切数字不同的语言学家有不同的意见),而其他语言都有或多或少的音素。
广告
下一步看起来简单,但实际上它是最难完成的是大多数语音识别研究的重点。程序检查上下文中的音素周围的其他音素。它运行上下文音位图通过一个复杂的统计模型和比较他们一个大型图书馆已知的单词,短语和句子。然后程序决定了用户可能会说,输出为文本或问题计算机命令。
我们将仔细看看它是如何。18新利最新登入