18新利最新登入语音识别是如何工作的

有几个软件,您可以购买回家语音识别。
图片由亚马逊

今天,当我们调用大多数大公司,一个人通常不会接电话。相反,一个自动录音回答和指导你按按钮进入选项菜单。许多公司已经超越要求你按下按钮,。通常你可以讲某些词(所指示的一个记录)得到你所需要的。使之成为可能的系统是一个类型的语音识别程序——一个自动电话系统。

你还在家庭和企业使用语音识别软件。一系列软件产品允许用户指定他们的电脑,他们的言语文字处理或转换为文本电子邮件文档。您可以访问函数命令,如打开文件和访问菜单,用语音指令。有些程序是为特定的业务设置,例如医学或法律转录。

广告

残疾人,防止他们打字也采用语音识别系统。如果用户已经失去了使用他的手,或视力受损的用户当它是不可能的或方便使用盲文键盘,通过听写系统允许个人表达以及许多计算机的控制任务。一些程序保存用户的语音数据在每一个会话,让人进步的演讲deterioriation继续支配他们的电脑。

目前项目分为两类:

Small-vocabulary /许多用户

这些系统非常适合自动电话回答。大量的用户可以说话口音和语言模式的变化,系统仍然会理解他们的大部分时间。18新利最新登入然而,使用仅限于少数预定的命令和输入,如基本的菜单选项或数字。

词汇量/ limited-users

这些系统的工作最好在业务环境中,少量的用户将使用项目。虽然这些系统使用良好的精确度(85%或更高的专家用户),在成千上万的词汇,你必须训练他们与少量的主要用户效果最好。的准确率与任何其他用户是否会大幅下跌。

语音识别系统做了10多年前还面临一个选择离散连续演讲。多程序更容易理解的话,当我们说分开,每个人之间有一个明显的停顿。18新利最新登入然而,大多数用户更喜欢在一个正常的说话,谈话的速度。几乎所有的现代系统能够理解连续语音。

语音数据

ADC模拟海浪的声音转换为数字数据抽样的声音。抽样和精确率越高,质量越高。

将语音转换成屏幕上的文本或一个计算机命令,计算机必须通过几个复杂的步骤。当你说话时,你创造出空气的振动。的模拟-数字转换器(ADC)这模拟波转换为计算机可以理解的数字数据。要做到这一点,它样品或数字化,波的声音通过精确测量。系统过滤器数字化声音去除不必要的噪音,有时分离成不同的乐队频率(频率声波的波长,由人类不同的音高)。它还可实现声音,或调整一个体积恒定的水平。它也可能暂时对齐。人们并不总是以同样的速度说话,所以声音必须匹配模板的速度调整声音样本已经存储在系统的内存。

下一个信号分成小段短的百分之几秒,甚至四舍五入的情况破裂音辅音——辅音阻碍气流停止生产的声道,“p”或“t”。的program then matches these segments to known音素在适当的语言。一种语言的音位是最小的元素,我们发出的声音的表示和放在一起形成有意义的表达。英语中大约有40个音素(确切数字不同的语言学家有不同的意见),而其他语言都有或多或少的音素。

广告

下一步看起来简单,但实际上它是最难完成的是大多数语音识别研究的重点。程序检查上下文中的音素周围的其他音素。它运行上下文音位图通过一个复杂的统计模型和比较他们一个大型图书馆已知的单词,短语和句子。然后程序决定了用户可能会说,输出为文本或问题计算机命令。

我们将仔细看看它是如何。18新利最新登入

语音识别和统计建模

早期的语音识别系统试图应用一组语法句法规则的演讲。如果单词符合一定的规则集,该程序可以确定的话。18新利最新登入然而,人类的语言有许多例外它自己的规则,即使是一致。口音、方言和言谈举止能大大改变某些词或短语说话的方式。从波士顿想象有人说“谷仓。”He wouldn't pronounce the "r" at all, and the word comes out rhyming with "John." Or consider the sentence, "I'm going to see the ocean." Most people don't enunciate their words very carefully. The result might come out as "I'm goin' da see tha ocean." They run several of the words together with no noticeable break, such as "I'm goin'" and "the ocean." Rules-based systems were unsuccessful because they couldn't handle these variations. This also explains why earlier systems could not handle continuous speech -- you had to speak each word separately, with a brief pause in between them.

今天的语音识别系统使用强大的和复杂的统计建模系统。这些系统使用概率和数学函数来确定最可能的结果。根据约翰•Garofolo演讲组管理器信息技术实验室的国家标准与技术研究院今天主宰战场的两个模型的隐马尔科夫模型18luck手机登录和神经网络。这些方法涉及到复杂的数学函数,但从本质上讲,他们知道的信息系统找出隐藏的信息。18luck手机登录

广告

隐马尔科夫模型是最常见的,所以我们要仔细看看这个过程。在这个模型中,每个音素就像一个链接链,完成链是一个字。18新利最新登入然而,链分支在不同的方向项目尝试匹配的数字声音未来最有可能的音素。在这个过程中,每个音素的程序分配一个概率评分,根据其内置的词典和用户培训。

这个过程是更加复杂的短语和句子——系统必须找出每个单词停止和开始。典型的例子是“识别语音,“这听起来很像“破坏一个漂亮的海滩”当你说它很快。程序使用短语分析音素,之前为了得到它。这里有一个分解的两个短语:

r呃k ao g n ay z s p iy ch

“认识到演讲”

r呃k ay n ay s b iy ch

“破坏一个漂亮的海滩

这是为什么这么复杂?如果一个程序有60000字的词汇(常见的在今天的项目),216万亿年三个词的序列可以是任何可能性。显然,即使是最强大的计算机搜索都不能没有一些帮助。

帮助项目培训的形式。根据约翰Garofolo:

这些统计系统需要大量的训练数据达到最优性能,有时的数千小时的human-transcribed演讲和数百兆字节的文本。这些训练数据是用来创建声学模型的话,单词列表,[…多词概率的网络。有一些艺术如何选择,编译和准备这对“消化”的训18新利最新登入练数据系统和系统模型是如何“调”的一个特定的应用程序。这些细节可以让一个表现良好的区别和经营制度——甚至当使用相同的基本算法。

而软件开发人员设置系统最初的词汇表执行大部分的训练,最终用户也必须花一些时间培训。在商业环境中,主用户程序必须花一些时间(有时仅为10分钟)说到系统训练他们的特定的语言模式。他们还必须培养系统识别特定公司术语和缩写。特殊版本的语音识别程序中常用的医学或法律办公室术语这些字段已经训练了。

接下来,我们将看看一些语音识别系统的弱点和缺陷。

语音识别:弱点和缺陷

一个高质量的噪音消除麦克风可以帮助你的语音识别系统的准确性。
图片由亚马逊

没有100%完美的语音识别系统;几个因素可以降低精度。其中一些因素问题,继续改善技术的改进。别人可以减少,如果不能完全纠正,由用户。

低信噪比

广告

程序需要“听”的单词明显,和任何额外的噪声引入的声音会干扰。噪音可以来自许多来源,包括在办公室大声背景噪音环境。用户应该在一个安静的房间里工作质量麦克风定位尽可能接近他们的嘴。低质量的声卡提供麦克风发送信号的输入电脑,经常没有足够的屏蔽其他计算机组件产生的电信号。他们可以介绍的嗡嗡声或嘶嘶声信号。

重叠的演讲

当前系统分离来自多个用户同时讲话有困难。“如果你想在谈话或会议使用识别技术,人们经常会打断对方或讨论,你可能会得到极度贫困的结果,”约翰Garofolo说。

大量使用计算机能力的企业

运行语音识别所需的统计模型需要计算机的处理器做很多繁重的工作。原因之一是需要记住每个阶段词汇识别搜索的情况下,系统需要回溯到想出合适的词。最快的个人电脑使用的今天仍然可以有困难与复杂的命令或短语,显著降低响应时间。词汇表所需的程序也会占用大量的硬盘空间。幸运的是,磁盘存储和处理器速度区域的快速发展,计算机在使用十年后这两个因素都将受益于一个指数增加。

同音异义词

同音异义词是两个单词拼写不同,有不同的含义,但声音相同。“我们”和“他们的”、“空气”和“继承人”,“是”和“蜜蜂”都是例子。语音识别程序没有办法区分这些话仅根据声音。18新利最新登入广泛的培训系统和统计模型,考虑词上下文极大地改善他们的表现。

我们来看看未来的语音识别程序。

语音识别的未来

第一个语音识别的发展比现代计算机的发明早50年以上。亚历山大·格雷厄姆·贝尔言论传播实验启发了他的妻子,他是聋子。他最初希望创建一个设备,将音响单词转换成可见的照片一个失聪的人会解释。他产生的光谱图像声音,但他的妻子无法破译。这条线的研究最终导致了他的发明电话

几十年来,科学家们开发了计算机语音识别的实验方法,但当时可用的计算能力有限。在1990年代,计算机才足以处理语音识别可用的平均消费。目前的研究可能会导致技术目前在一集更熟悉的“星际迷航”。的Defense Advanced Research Projects Agency (DARPA) has three teams of researchers working on Global Autonomous Language Exploitation (GALE), a program that will take in streams of information from foreign news broadcasts and newspapers and translate them. It hopes to create software that can instantly translate two languages with at least 90 percent accuracy. "DARPA is also funding an R&D effort called TRANSTAC to enable our soldiers to communicate more effectively with civilian populations in non-English-speaking countries," said Garofolo, adding that the technology will undoubtedly spin off into civilian applications, including a universal translator.

广告

一个普遍的翻译仍然是遥远的未来,然而,很难建立一个系统,该系统结合了自动翻译和语音激活技术。18新利最新登入根据CNN最近发表了一篇文章,盖尔项目是““DARPA困难”(意义)困难甚至极端的标准”,美国国防部高级研究计划局。为什么?问题之一是使系统能够完美地处理障碍像俚语、方言口音,背景噪音。语言使用的不同的语法结构也可以构成一个问题。例如,阿拉伯语有时使用单个词用英语表达思想,整个句子。

在将来的某个时候,语音识别可能成为演讲的理解。让电脑的统计模型来决定一个人只是说可能有一天让他们掌握单词背后的意义。尽管这是一个巨大的飞跃在计算能力和软件复杂性方面,一些研究人员认为,语音识别的发展提供了最直接的线从今天的电脑到真正的人工智能。今天我们可以谈谈我们的电脑。25年来,他们很可能回来。

关于语音识别和相关主题的更多18luck手机登录信息,查看下一个页面上的链接。

更多的信息18luck手机登录

HowStuff18新利最新登入Works相关文章

更大的链接

来源

  • Jelinke,弗雷德里克。“统计语音识别方法。”的MIT Press, January 16, 1998. ISBN 0262100665.
  • 雷蒙德·库兹韦尔。“哈尔理解我们在说什么?”在“哈尔的遗产:2001的电脑梦想和现实。”编辑David g .鹳,麻省理工学院出版社,2月6日,1998年,ISBN 0262692112。
  • “钟。”PBS.org. http://www.pbs.org/wgbh/amex/telephone/peopleevents/mabell.html
Baidu