03.05.2021•

一种新的机器语音翻译框架

研究人员提出了一种基于深度学习的模型，用于在语音翻译过程中模仿和持续修改说话人的语音身份。

机器人从最初作为主要用于机械辅助人类的无知觉生物，今天已经走过了漫长的道路。今天，它们可以在智力上甚至情感上帮助我们，在模仿有意识的人类方面做得更好。这种能力的一个重要组成部分是使用语音与用户交流(智能助手，如谷歌Home和亚马逊的回声明显的例子)。尽管有这些显著的发展，它们听起来仍然不太“人性化”。

这就是声音转换(VC)。VC是一种在不改变语言内容的情况下，将说话者的身份进行相互修改的技术，它可以通过改变非语言信息，如在语音中添加情感，使人机交流听起来更“自然”。除了语言信息，非语言信息对自然(人与人)交流也很重要。在这方面，VC实际上可以帮助人们更善于交际，因为他们可以从语言中获得更多信息，”日本高级科学技术研究所(JAIST)的赤木正人教授解释说，他的工作是语音感知和语音处理。

然而，语音可以出现在多种语言中(例如，在语言学习平台上)，我们可能经常需要一台机器充当语音到语音的翻译器。在这种情况下，传统的风险投资模型有几个缺点，正如Akagi教授和他在JAIST的博士生Tuan Vu Ho在试图将他们的单语风险投资模型应用于“跨语言”风险投资(CLVC)任务时发现的那样。首先，改变说话人的身份导致了对语言信息的不必要的修改。此外，他们的模型没有考虑到“F0轮廓”的跨语言差异，而“F0轮廓”是语音感知的一个重要品质，F0指的是浊音中声带振动的基频。它也不能保证输出语音所需的说话人身份。

现在，研究人员提出了一种适用于CLVC的新模型，它允许语音模仿和对生成语音的说话者身份的控制，这标志着他们对之前的VC模型的显著改进。

具体来说，新模型应用了语言嵌入(映射)自然语言文本，如单词和短语，到数学表示)从发言者个性和F0建模控制F0轮廓分离语言。另外，它采用了深度学习基于星型生成对抗网络(StarGAN)的训练模型，与他们之前使用的变分自动编码器(VAE)模型不同。大致说,VAE模型需要在一个输入,将它转换成一个越来越密集的表示,并将其转换回原来的输入,而StarGAN使用两个网络,推动互相竞争来生成改进迭代,直到输出样本自然的区别。

研究人员表明，他们的模型可以以端到端的方式进行训练，在训练过程中直接优化语言嵌入，并可以很好地控制说话者身份。F0条件作用也有助于消除说话者个性的语言依赖，从而增强了这种可控性。

研究结果令人兴奋，赤木教授展望了CLVC模型的几个未来前景。“我们的研究结果直接应用于保护说话人的隐私，比如匿名化一个人的身份，在紧急情况下增加说话的紧迫感，手术后的声音恢复，克隆历史人物的声音，以及通过创造不同的声音角色来降低有声书的制作成本，等等。”他兴奋地评论。他打算在未来的研究中进一步完善说话人身份的可控性。

这项研究发表在IEEE访问．