一种新的机器语音翻译框架

研究人员提出了一种基于深度学习的模型,用于在语音翻译过程中模仿和持续修改说话人的语音身份。

照片
语音转换是通过从扬声器码本中选择嵌入目标扬声器来实现的。通过扬声器嵌入的主成分,可以独立控制语音特性。
来源:Masato船长

机器人从最初作为主要用于机械辅助人类的无知觉生物,今天已经走过了漫长的道路。今天,它们可以在智力上甚至情感上帮助我们,在模仿有意识的人类方面做得更好。这种能力的一个重要组成部分是使用语音与用户交流(智能助手,如谷歌Home和亚马逊的回声明显的例子)。尽管有这些显著的发展,它们听起来仍然不太“人性化”。

这就是声音转换(VC)。VC是一种在不改变语言内容的情况下,将说话者的身份进行相互修改的技术,它可以通过改变非语言信息,如在语音中添加情感,使人机交流听起来更“自然”。除了语言信息,非语言信息对自然(人与人)交流也很重要。在这方面,VC实际上可以帮助人们更善于交际,因为他们可以从语言中获得更多信息,”日本高级科学技术研究所(JAIST)的赤木正人教授解释说,他的工作是语音感知和语音处理。

然而,语音可以出现在多种语言中(例如,在语言学习平台上),我们可能经常需要一台机器充当语音到语音的翻译器。在这种情况下,传统的风险投资模型有几个缺点,正如Akagi教授和他在JAIST的博士生Tuan Vu Ho在试图将他们的单语风险投资模型应用于“跨语言”风险投资(CLVC)任务时发现的那样。首先,改变说话人的身份导致了对语言信息的不必要的修改。此外,他们的模型没有考虑到“F0轮廓”的跨语言差异,而“F0轮廓”是语音感知的一个重要品质,F0指的是浊音中声带振动的基频。它也不能保证输出语音所需的说话人身份。

现在,研究人员提出了一种适用于CLVC的新模型,它允许语音模仿和对生成语音的说话者身份的控制,这标志着他们对之前的VC模型的显著改进。

具体来说,新模型应用了语言嵌入(映射)自然语言文本,如单词和短语,到数学表示)从发言者个性和F0建模控制F0轮廓分离语言。另外,它采用了深度学习基于星型生成对抗网络(StarGAN)的训练模型,与他们之前使用的变分自动编码器(VAE)模型不同。大致说,VAE模型需要在一个输入,将它转换成一个越来越密集的表示,并将其转换回原来的输入,而StarGAN使用两个网络,推动互相竞争来生成改进迭代,直到输出样本自然的区别。

研究人员表明,他们的模型可以以端到端的方式进行训练,在训练过程中直接优化语言嵌入,并可以很好地控制说话者身份。F0条件作用也有助于消除说话者个性的语言依赖,从而增强了这种可控性。

研究结果令人兴奋,赤木教授展望了CLVC模型的几个未来前景。“我们的研究结果直接应用于保护说话人的隐私,比如匿名化一个人的身份,在紧急情况下增加说话的紧迫感,手术后的声音恢复,克隆历史人物的声音,以及通过创造不同的声音角色来降低有声书的制作成本,等等。”他兴奋地评论。他打算在未来的研究中进一步完善说话人身份的可控性。

这项研究发表在IEEE访问

订阅我们的通讯

相关文章

研究人员对人工智能进行心理分析

研究人员对人工智能进行心理分析

我们可以进行测试和实验,但我们不能总是预测和理解人工智能为什么会这么做。

人工智能的进展和风险

人工智能的进展和风险

根据一个国际专家小组的说法,人工智能的发展已经达到了一个关键的转折点。

“液体”机器学习系统能够适应不断变化的环境

“液体”机器学习系统能够适应不断变化的环境

机器学习系统在工作中学习。通过不断适应新的数据输入,这种“液体网络”可以帮助医疗诊断决策。

人工智能在医疗保健中的应用——炒作、希望和现实

人工智能在医疗保健中的应用——炒作、希望和现实

目前,我们过于关注人工智能的话题。然而,为了利用人工智能技术,我们必须掌握一些挑战,并建立一个适当的框架。

个性化深度学习装备机器人治疗自闭症

个性化深度学习装备机器人治疗自闭症

机器学习网络提供了儿童行为的个性化评估。

“深度伪造大脑”来改善脑机接口

“深度伪造大脑”来改善脑机接口

研究人员正在使用生成对抗网络来改善残疾人的脑机接口。

ReSkin帮助发现触觉

ReSkin帮助发现触觉

卡内基梅隆大学(Carnegie Mellon University)和Meta AI(前Facebook AI)希望在机器人、可穿戴设备、智能服装和人工智能领域增加触觉。

赋予机器人社交技能

赋予机器人社交技能

机器学习系统帮助机器人理解和执行某些社会互动

183新利

183新利

最近,Surjo R. Soekadar教授概述了脑机接口当前和未来的应用。

受欢迎的文章

订阅简报
Baidu