机器人从最初作为主要用于机械辅助人类的无知觉生物,今天已经走过了漫长的道路。今天,它们可以在智力上甚至情感上帮助我们,在模仿有意识的人类方面做得更好。这种能力的一个重要组成部分是使用语音与用户交流(智能助手,如谷歌Home和亚马逊的回声明显的例子)。尽管有这些显著的发展,它们听起来仍然不太“人性化”。
这就是声音转换(VC)。VC是一种在不改变语言内容的情况下,将说话者的身份进行相互修改的技术,它可以通过改变非语言信息,如在语音中添加情感,使人机交流听起来更“自然”。除了语言信息,非语言信息对自然(人与人)交流也很重要。在这方面,VC实际上可以帮助人们更善于交际,因为他们可以从语言中获得更多信息,”日本高级科学技术研究所(JAIST)的赤木正人教授解释说,他的工作是语音感知和语音处理。
然而,语音可以出现在多种语言中(例如,在语言学习平台上),我们可能经常需要一台机器充当语音到语音的翻译器。在这种情况下,传统的风险投资模型有几个缺点,正如Akagi教授和他在JAIST的博士生Tuan Vu Ho在试图将他们的单语风险投资模型应用于“跨语言”风险投资(CLVC)任务时发现的那样。首先,改变说话人的身份导致了对语言信息的不必要的修改。此外,他们的模型没有考虑到“F0轮廓”的跨语言差异,而“F0轮廓”是语音感知的一个重要品质,F0指的是浊音中声带振动的基频。它也不能保证输出语音所需的说话人身份。
现在,研究人员提出了一种适用于CLVC的新模型,它允许语音模仿和对生成语音的说话者身份的控制,这标志着他们对之前的VC模型的显著改进。
具体来说,新模型应用了语言嵌入(映射)自然语言文本,如单词和短语,到数学表示)从发言者个性和F0建模控制F0轮廓分离语言。另外,它采用了深度学习基于星型生成对抗网络(StarGAN)的训练模型,与他们之前使用的变分自动编码器(VAE)模型不同。大致说,VAE模型需要在一个输入,将它转换成一个越来越密集的表示,并将其转换回原来的输入,而StarGAN使用两个网络,推动互相竞争来生成改进迭代,直到输出样本自然的区别。
研究人员表明,他们的模型可以以端到端的方式进行训练,在训练过程中直接优化语言嵌入,并可以很好地控制说话者身份。F0条件作用也有助于消除说话者个性的语言依赖,从而增强了这种可控性。
研究结果令人兴奋,赤木教授展望了CLVC模型的几个未来前景。“我们的研究结果直接应用于保护说话人的隐私,比如匿名化一个人的身份,在紧急情况下增加说话的紧迫感,手术后的声音恢复,克隆历史人物的声音,以及通过创造不同的声音角色来降低有声书的制作成本,等等。”他兴奋地评论。他打算在未来的研究中进一步完善说话人身份的可控性。
这项研究发表在IEEE访问.
来源:日本高等科学技术研究所