在印度的一个研究小组设计了一个系统,将文字转换成另一种语言,使其出现,一个演讲者的嘴唇正在同步的语言。
面对面的自动翻译,所述2019年10月的论文,提前在text-to-text或“从语音到语音”的翻译,不仅因为它翻译演讲,但也提供了一个口型面部形象。
广告
要理解这是如何工作的,看看下18新利最新登入面的演示视频,由研究人员。6:38马克,你会看到一个视频剪辑的已故的戴安娜王妃在1995年的一次采访中记者马丁·巴希尔,并解释道,“我想成为一个女王的心,在人们的心中,但我不认为自己是这个国家的王后。”
片刻之后,您将看到她说出同样的报价在印地语——她的嘴唇移动,仿佛她真的说话语言。
“沟通有效地跨越语言障碍一直是人类的主要愿望世界各地,”Prajwal K.R。计算机科学研究生国际信息技术在海得拉巴,印度,解释了通过电子邮件。18luck手机登录他的论文的第一作者,连同他的同事Rudrabha Mukhopadhyay。
“今天,互联网充斥着说面对视频:YouTube上传/天(300小时),在线讲座、视频会议、电影、电视节目等等,“Prajwal,经过他的名字,写道。18新利最新登入“当前翻译系统只能生成一个翻译语音输出或文本字幕等视频内容。他们不处理可视化组件。因此,翻译演讲视频上覆盖时,嘴唇动作将与音频不同步。
“因此,我们建立“从语音到语音”的翻译系统,提出一个管道,可以视频,一个人在一个源语言和输出视频的演讲者在目标语言的语音风格和嘴唇动作匹配目标语言讲话,“Prajwal说。“通过这样做,翻译系统成为整体,正如人类评估本文所示,极大地提高了用户体验在创造和消费翻译视听内容。”18新利最新登入
面对面的翻译需要一系列复杂的壮举。“鉴于视频的人来说,我们有两个主要的信息来源翻译:视觉和语音信息,”他解释说。18luck手机登录他们在几个主要完成这个步骤。“系统第一转录的句子在演讲中使用自动语音识别(ASR)。这是同样的技术,用于语音助手(例如Google助理)在移动设备上。”Next, the transcribed sentences are translated to the desired language using Neural Machine Translation models, and then the translation is converted to spoken words with a text-to-speech synthesizer — the same technology that digital assistants use.
最后,一个叫LipGAN纠正技术嘴唇动作在原始视频与语音翻译。
“因此,我们得到一个完全翻译与唇同步视频,“Prajwal解释道。
“LipGAN是小说的贡献我们的论文的关键。这就是带来的视觉形态。它是最重要的,因为它纠正唇同步在最后的视频,大大提高了用户体验。”
广告