专家的东西:谷歌的迈克·科恩

麦克科恩汽车在谷歌内部。看到更多Googleplex图片。
礼貌谷歌

谷歌的演讲技术经理麦克科恩理解演讲水平我们大多数人不思考。他理解在一个基本水平的声音组合和上下文线索。他——他的主管部门在谷歌工作语音识别技术。

教学电脑识别演讲是很棘手的。懂英语,有许多障碍必须克服。英语有很多同音异义词,发音相同的单词发音上但意味着不同的东西。认为“”、“两”和“太”。People speaking with an accent or in a regional dialect may pronounce words in a way that's dramatically different from the standard pronunciation. And then there are words like "route" that have alternate pronunciations -- you can say "root" or "rout" and both are correct.

广告

18新利最新登入你怎么教电脑这些区别?18新利最新登入机器怎么能理解我们所说的和适当的反应?这些都是在谷歌科恩和他的团队所面临的挑战。我们采访了科恩,请他提供更多细节关于他在语音识别研究与应用工作。

在每一页,你会看到我们的问题在标题和科恩在体内的反应。我们从语音识别技术的基础知识开始,您将看到在下一页。

广告

18新利最新登入语音识别技术是如何工作的基本水平?

好的,所以从根本上说,这个领域的方式已经在过去的几十年里越来越向数据驱动或统计建模方法。我的意思是什么而不是让人们去尝试计划所有这些规则或所有这些的描述语言是如何工作的,我们试图建立模型,我们可以养活很多的数据模型,模型将学习讲话从数据的结构。18新利最新登入所以数据驱动的方法方法是基于构建大型的统计模型语言通过喂食大量的数据。

这是第一原则,对机器学习运动,或数据驱动的统计方法是最重要的一个进步的历史语音识别领域。所以问题我们应该成为什么样的模型开始,然后我们可以养活这个数据我们可以得到性能良好的语音识别器吗?我们主要有一个拥有三个基本组件的模型,模型语音信号的不同方面。第一部分叫做声学模型,基本上那是什么,是一个模型的基本语言的声音。

广告

一个声学模型究竟是什么?

声学模型要求工程师收集所有的声音由一个特定语言的人。
iStockphoto /思想库

我们构建一个声学模型对美国英语,我们有模型,“啊,”和“,”和“buh,”和“tuh,”和“毫米”,和“nn”等等等等的所有基本的声音语言。实际上,有点要复杂得多,因为事实证明,英文“aa”的声音。“aa”这个词“数学”与“aa”这个词“龙头”。They produce something differently, and they sound a bit differently, and so we actually need different models for the "aa" sound, whether it's following an M versus following a T. The production of those fundamental sounds or音素要取决于上下文。

我们有很多模型为“aa”声,这是一个不同的模型如果前任“毫米”与“tuh”为例。这是第一块模型,声学模型模型,所有的基本声音给出他们的上下文。

广告

还有什么你需要除了声学模型?

长串的单词和句子语音识别软件带来挑战。
与技术/AbleStock.com/思想库

下一部分的模型被称为词典的字典。那是什么,是一个定义所有的单词语言他们如18新利最新登入何得到明显。换句话说,根本听起来我们串在一起,甚至那些声学模型创建词串起来。例如,词汇信息,例如,你知道,你可能会说,“eh-conomics”或“ee-c18luck手机登录onomics”用英语和他们都是有效的方式,或者发音的典型方法——这个词“经济学”。

模型的第三个模型是我们拼单词短语和句子的语言。18新利最新登入这些都是统计模型,例如,这个模型,虽然它的捕获,的语言的语法约束,它是基于在一个统计方式喂养它大量的数据。例如,模型可以学习,如果识别器认为它只是公认的“狗”,现在是试图找出下一个单词是什么,也知道“跑”是比“锅”或“可以”作为下一个单词仅仅因为我们了解英语语言的使用。

广告

狗跑超过他们用平底锅做事情,所以通过喂食大量的数据模型——我们叫它语言模型。词序列的统计模型,可能不同的单词是如何发生鉴于最近的词。18新利最新登入通过喂食大量数据模型,它只是计算这些统计信息接下来可能发生什么,这就是语言模型。现在,这三个模型,声学模型或模型的基本声音,词汇,或模型的所有单词怎么发音,和最后的语言模型,或者所有这些单词串在一起一起编译。18新利最新登入

所以词汇通过结合声学模型来构建模型,语言模型是由串联词模型,它被编译成一个巨大的英语口语的代表,我们说,这成为了从数据模型,并承认或搜索一些声学进来,它需要找出是我最好的猜测刚刚说了什么。

广告

18新利最新登入你如何考虑口音和方言在设计语音识别器吗?

良好的语音识别软件必须能够接受来自不同背景的人输入,方言和口音。
并大圆点/思想库

最基本的事情之一,因为我们需要的数据驱动的方法,我们尝试有很大,广泛的训练集。我们有大量的数据从各种各样的人与各种各样的口音,说各种各样的事情,等等,最重要的是有良好的覆盖在你的训练集的一切。我们有足够的布鲁克林口音的实例——而不仅仅是由于我——但我们从布鲁克林人,跟我们的系统,我们做好当布鲁克林口音的人跟我们的系统。

另一方面,如果有人走过来,很奇怪的和不寻常的方式发音的东西在我们的数据得到,我们会有更多的困难识别它们。

广告

有时发音足够截然不同,比方说在英国英语和美国英语,我们可以建立一个单独的模型,或部分混合模型,等等。这是一种的研究领域。当我们应该建立独立的模型对所有合并成一个大的模型,或之间的妥协吗?变化是一个巨大的挑战,许多重大挑战之一,使它更加困难。具有良好的训练集是我们处理的方法之一,当训练集,有广泛的报道这些事情发生。

有什么区别计算语言学家和技术专家演讲吗?

哇。这是一个很好的问题,因为真正的界限已经模糊。我的意思是,这些天来,我们都并肩工作,做类似的事情。20或30年前,有两个阵营。有语言学家试图建立语音识别器的显式编程的知识结构语言,然后有工程师走了过来,说:“语言是如此复杂,没有人能理解它,并有太多可以明确程序,所以,我们将构建统计模型,这些大数据给他们,让他们学习。”For a while, the engineers were winning, but nobody was doing a great job.

所以最近,在过去的25年里,那些社区一起,我们学到了某些东西从语言学家关于演讲的结构,就像我前面提到的,这是任何特定的音素的生产很受周围的音素的影响。语言学家已经出版,调用它co-articulation多年来,。最后,统计学家和工程师了,心脏和构建模型,是上下文依赖,这样他们可以学习和为“啊”添加一个单独的模型,因为它发生在“毫米”与“咄”,等等等等。

广告

这些社区真正走到一起,所以——也许我扔这些术语在太松散指语音技术和计算语言学家。我们都试图理解语言的边界,语言的结构,尝试开发算法,机器学习风格算法,我们找出我们如何想出一个更好的模型,可以更好地捕捉的结构18新利最新登入演讲,然后有一个算法,这样我们饲料模型很多很多的数据,模型结构变化和警告其内部参数成为一个更好的、更加丰富的语言模型,考虑到数据的美联储。

隐马尔可夫模型是什么和它是如何进入语音识别?18新利最新登入

隐马尔科夫模型中的某些假设的数据,其中一些并不准确。举个例子,有一个条件——这将太技术——但是是的,有些挑战建模有氧条件约束。这是一个活跃的研究领域。18新利最新登入我们如何改变模型,这样我们可以做得更好的有氧条件限制,捕捉他们的模型?例如,我们有一种叫做三角洲的特性,所以我们不仅看此刻的音响,但这些声学的轨迹是什么?这是它的一部分上升、下降或其他?

这告诉我们发生了什么在更长的距离,即使在这些约束的假设的统计数据,我们可以用这样一个模型的模型。

广告

语法是什么?

是的,这个词已经使用松散,这意味着随着时间的推移一些不同的东西。在最一般的意义上,可以认为它是一个描述,我们可能期望的字串可能发生。在一些系统中,这是非常适用于大量的呼叫中心系统,我们会有一个相当好的主意的人很可能会说,对吧?你有一个系统,是一个菜单,你想要一个,B或C ?你可能会认为大多数人会说“A”“B”或“C”或者他们可能会说,“我想要一个”或“请,”或类似的东西,因为应用程序相当可预测的事情。

但也有语言人们可以指定“这是规则或字符串的集合,人们可能会说在这个特殊的背景下。”That would be a case where the recognizer was very limited. It would only recognize a certain number of variations in how you might say things. Let's say, "do you want your account balance or to make a transfer?" It's not like people will mimic exactly those words, but it's reasonably predictable, so somebody with experience, and after listening to some of the data, could have a reasonable chance of writing an explicit grammar that said, "Here are 50 variations in how people might make that two-way choice."

广告

然而,当你变得更困难的应用,例如,语音搜索,更很难预测这些字符串的话,人们可能会完全不同。所以,语法成为所谓的统计语法或者我们经常所说的统计语言模型。更的形式,考虑到最后两个字是,B,这是概率在所有的单词在我的语言接下来会发生什么。

18新利最新登入谷歌语音搜索数据库中有多少单词?

谷歌产品管理总监雨果Barra谈到蜂窝,首先构建Android操作系统的平板电脑。
贾斯汀·沙利文/盖蒂图片社

无数。

让我这么说吧。对于英语,词汇方面,不同的单词在我们的词汇的数量大约是一百万年,随着时间的发展,因为,很明显,新单词进入语言,新名字出现,等等,所以不时会重新添加,。然后,这句话可以放在一起在任何的订单,和任何单词字符串长度。所以你可能会想出十个字的查询,选择随机的百万字,所以它是一个天文数字般的大量。18新利最新登入但是,通过使用这种我刚才提到的统计语言模型,和培训大量的查询,数千亿的查询,我们最终得到合理的预测能力的可能。

广告

18新利最新登入一个语音识别系统需要多少计算能力呢?

这取决于当你的意思。当我们正在做的事情识别上运行,在那一刻识别器的CPU,所以在CPU、我们将实时识别。但是为了实现我们得到的性能,为了建立这些模型,我们可以花很多几十年的计算机时间计算为英语语言模型现在工作。所以它的发展随着时间的推移,因为我们得到更多的数据,CPU速度之类的,只是一个语言模型训练英语我们可以使用2300亿年,例如,“价值的数据,可能需要多个几十年的时间如果是在一个CPU上运行。但很明显,我们会申请成千上万的cpu可以训练这些所有的时间。

广告

为什么谷歌语音识别感兴趣?

语音识别与翻译软件可能是《星际迷航》的第一步的万能翻译技术。
海恩斯出版通过盖蒂图片社

有两个基本原因,它又回来了谷歌的使命。第一部分谷歌的使命是组织全世界的信息。18luck手机登录事实证明,世界上很多的信息是说,我们需要使发现,搜索,可以组织起来的——即使是18luck手机登录一个YouTube视频的音轨,或者留言之类的。另一部分谷歌的使命是让所有这些信息普遍可接受的和有用的,所以作为一个例子,一个关键的部分是如何与互联网,当你移18luck手机登录动吗?18新利最新登入当你移动的时候,你有小键盘,你可能在街上散步,骑自行车,驾驶一辆车,或者其他,只是常常比类型更方便交谈。

所以我们想做演讲普及输入/输出模式,所以,只要最终用户的感觉我想互动的模式,我们希望它是可用的,并且可提供如此高的性能,当他们喜欢演讲,他们只是自然地使用它。

谷歌应用程序正在使用语音识别?

两年前[2009]我们发布的语音搜索,所以基本上所有谷歌搜索智能手机,你可以做演讲。这是普遍的。它被大量的使用。一年多前[2010],我们发布了所谓的语音输入,这意味着在Android上,随时弹出键盘,还有一个小麦克风按钮。所以无论是键盘弹出一些应用程序中,或者当你浏览网页时,填写一个表单,如果键盘弹出您还可以点击麦克风按钮和说话。对我来说,这是一个非常重要的一步这一愿景的言论真的无处不在的访问。是在1月份公布的,一年多前。

今年8月[2010],我们发布了所谓的声音行动,和八个或九个典型的人做的事,喜欢的地方调用,搜索业务,做导航,Web页面,设置报警,听音乐,发送一个短信消息,发送电子邮件,类似这样的事情,他们现在可以从搜索栏,使请求和行动发生。所以我可以说,“发送短信给史蒂夫·史密斯。在7点见我。”,它会送他一条短信,类似这样的事情。这是主要的事情现在移动。更普遍的是,我们朝着未来真的是无处不在的输入。任何时候你想要说话的时候,我们希望它是可用的。

谷歌Android开发工具包,使两个型号:自由模型和网络搜索模型。有什么区别呢?

对吧,所以网络搜索语言模型是专门培训大量的查询,进入Google.com,所有这些单词字符串和东西。如果是查询例如应用程序中,语音搜索或东西相对较短的输入,你正在寻找的东西,即使是更专业,我在找这本书,我在找什么,那么它可能是更明智的尝试搜索语言模型,如果是这种风格的应用程序。如果是更广泛,人们决定电子邮件、信件和谁知道,听写语言模型可能会更好,但人们很可能想尝试它,试一试,看看作品。

我们可以看谷歌开发一个通用翻译类似于星舰迷航记》的你会看到什么?

谷歌研究,以及演讲组,还有一群在机器翻译工作,现在和我们合作,所以你可能听说过一些关于“从语音到语音”的翻译,你可以用英语说点什么,然后得到公认的英文,翻译成西班牙语,然后合成用西班牙语,这样你就可以继续谈话。这是一个活跃的研究领域,一些初始部署。

了解更多关于语音识别和谷歌的在下一页的链接。

广告

加载……
Baidu