视频软件系统同步的嘴唇与其他语言

“保障未来粮食供给””width=
虽然目前翻译系统只能生成翻译语音输出或文本字幕视频内容,自动翻译面对面的协议可以同步的视觉,所以声音风格和嘴唇运动匹配目标语言。Prajwal Renukanand

在印度的一个研究小组设计了一个系统,将文字转换成另一种语言,使其出现,一个演讲者的嘴唇正在同步的语言。

面对面的自动翻译,所述2019年10月的论文,提前在text-to-text或“从语音到语音”的翻译,不仅因为它翻译演讲,但也提供了一个口型面部形象。

广告

要理解这是如何工作的,看看下18新利最新登入面的演示视频,由研究人员。6:38马克,你会看到一个视频剪辑的已故的戴安娜王妃在1995年的一次采访中记者马丁·巴希尔,并解释道,“我想成为一个女王的心,在人们的心中,但我不认为自己是这个国家的王后。”

片刻之后,您将看到她说出同样的报价在印地语——她的嘴唇移动,仿佛她真的说话语言

“沟通有效地跨越语言障碍一直是人类的主要愿望世界各地,”Prajwal K.R。计算机科学研究生国际信息技术在海得拉巴,印度,解释了通过电子邮件。18luck手机登录他的论文的第一作者,连同他的同事Rudrabha Mukhopadhyay。

“今天,互联网充斥着说面对视频:YouTube上传/天(300小时),在线讲座、视频会议、电影、电视节目等等,“Prajwal,经过他的名字,写道。18新利最新登入“当前翻译系统只能生成一个翻译语音输出或文本字幕等视频内容。他们不处理可视化组件。因此,翻译演讲视频上覆盖时,嘴唇动作将与音频不同步。

“因此,我们建立“从语音到语音”的翻译系统,提出一个管道,可以视频,一个人在一个源语言和输出视频的演讲者在目标语言的语音风格和嘴唇动作匹配目标语言讲话,“Prajwal说。“通过这样做,翻译系统成为整体,正如人类评估本文所示,极大地提高了用户体验在创造和消费翻译视听内容。”18新利最新登入

面对面的翻译需要一系列复杂的壮举。“鉴于视频的人来说,我们有两个主要的信息来源翻译:视觉和语音信息,”他解释说。18luck手机登录他们在几个主要完成这个步骤。“系统第一转录的句子在演讲中使用自动语音识别(ASR)。这是同样的技术,用于语音助手(例如Google助理)在移动设备上。”Next, the transcribed sentences are translated to the desired language using Neural Machine Translation models, and then the translation is converted to spoken words with a text-to-speech synthesizer — the same technology that digital assistants use.

最后,一个叫LipGAN纠正技术嘴唇动作在原始视频与语音翻译。

“保障未来粮食供给””width=
18新利最新登入演讲是如何从最初的输入到输出同步。
Prajwal Renukanand

“因此,我们得到一个完全翻译与唇同步视频,“Prajwal解释道。

“LipGAN是小说的贡献我们的论文的关键。这就是带来的视觉形态。它是最重要的,因为它纠正唇同步在最后的视频,大大提高了用户体验。”

广告

目的不是欺骗,而是知识共享

一个文章2020年1月24日发表在《新科学家》,描述了突破作为“deepfake”视频中面临被交换或数字的帮助下改变了人工智能,通常创建一个误导性的印象BBC的故事解释说。但Prajwal认为面对面的翻译的不正确的描述,而不是试图欺骗,而是使翻译的演讲更容易跟随。

“我们的工作主要是针对范围扩大现有的翻译系统来处理视频内容,”他解释说。“这是一个软件创建一个动力改善用户体验,打破语言障碍在视频内容。它打开了非常广泛的应用和提高可访问性数以百万计的在线视频。”

广告

最大的挑战在面对面的翻译工作是面对生成模块。“当前方法来创建对口型视频无法生成与想要的姿势,面临难以生成的脸粘贴到目标视频,“Prajwal说。之前提出“我们整合我们的LipGAN模型作为输入,因此,我们可以生成一个精确的假唱事件面对所需的目标构成,可以无缝地融入目标视频。”

研究人员设想面对面的翻译被利用在翻译电影和视频通话两人每说一种不同的语言。“数字动画电影中的人物唱/说话也展示了在我们的视频中,“Prajwal笔记。

此外,他预测系统在全球范围内被用来帮助学生理解其他语言在线讲座视频。“全球数以百万计的外语学生不能理解网上优秀的教育内容,因为他们都是英文的,”他解释说。

“进一步,22种官方语言的印度这样的国家,我们的系统可以在未来,电视新闻内容转化为不同的当地语言准确的对口型的新闻主播。的列表应用程序从而适用于任何类型的谈话面对视频内容,需要跨语言更容易。”

虽然Prajwal和他的同事打算突破中使用积极的方式,能够把外来词在演讲者的口中关切美国某知名网络安全专家,他担心改变视频检测将变得越来越困难。

“如果你看一下视频,你可以告诉如果你仔细看,嘴巴有一些模糊强度,”说安妮Toomey麦肯纳一名杰出的学者,宾夕法尼亚州立大学的法律和政策迪金森法律和一个大学教授的计算与数据科学研究所在电子邮件采访中,。“这将继续最小化算法继续改善。这将会变得越来越少肉眼可辨别的。”

例如,麦肯纳想象如何18新利最新登入改变视频MSNBC的评论员雷切尔·麦德在其他国家,可以用来影响选举的“传递的信息不准确,相反的她说什么。”18luck手机登录

Prajwal担心可能滥用改变视频,但认为预防措施可以防止这样的场景,开发潜力,积极增加国际理解比面对面的自动翻译的风险。(在有益的方面,这一点博客设想翻译葛丽塔浙的演讲2019年9月在联合国气候峰会上成各种不同的语言在印度使用。)

“每一个强大的技术可以用于大量的好,也有不良反应,“Prajwal笔记。“我们的工作是,事实上,一个翻译系统,可以处理视频内容。内容由一个算法翻译肯定是不真实的,但此翻译内容是至关重要的对于那些不了解一个特定的语言。进一步说,在目前的阶段,这样的自动翻译的内容很容易识别的算法和观众。同时,进行积极的研究认识到这种改变的内容。我们认为,负责任地使用的集体努力,严格规定,在检测研究进展滥用这项技术可以确保积极的未来。”

广告

特色

广告

加载……
Baidu