尝试告诉 Google Assistant 你失去了你的狗。他会用这样一句话来回答你“这是一个悲伤的消息,你一定很难过”,语气如此单调,几乎没有任何影响,你会觉得他在嘲笑你。
这是目前语音合成研究的障碍之一:难以获得富有表现力的语气。为了实现这一目标,谷歌研究人员决定考虑韵律,即声音的持续时间、旋律和节奏。在那之前还没有任何程序做过。韵律建模最终将使获得具有自然渲染的人工声音成为可能,甚至,为什么不通过要求它完美模拟任何声音(包括您的声音)来个性化您的语音助手!
改变声音的速度和音量是不够的
去年年底,谷歌的同一个团队已经成功地生成了英语合成女声,结果非常自然它与人类的声音没有区别在测试期间。
该程序名为 Tacotron 2,基于两个神经网络。第一个将文本分成序列,并将每个序列转换为频谱图(直观地表示音频强度的图表),第二个称为 WaveNet(已在 Google Assistant 中使用),它会自动生成音频文件。
如果说 Tacotron 2 取得了如此好的成绩,那是因为它已经改变了音量、语速和标点符号。但他的能力有限,因为他无法控制声音的表情。“这可能会导致语音听起来单调,即使模型是在有声读物等高度表达的数据集上进行训练的,这些数据集通常包含具有显着变化的角色声音。”,我们可以阅读谷歌研究官方博客。
举一个人类表达能力的例子
因此,最大的新颖之处在于韵律建模,这是两篇科学文章的主题。这总理描述了如何修改 Tacotron 的架构以添加一种依赖人类语音录音作为参考的韵律编码器。重音或语调等特征均被标记。这使得该韵律可以用录音中以外的短语来再现。
第一个文件对应于参考模型记录。
第二个有一个模拟声音,使用与另一个句子相同的韵律。
这甚至适用于与参考模型不同的声音。
这是人体模型。
还有不同的模拟声音。
问题是,以这种方式,不可能用与参考录音具有不同结构和长度的句子来再现该韵律。
基本上,所有这些都需要为每个表达范围和每个句子结构录制人声。该死的限制!
学习独立于文本模拟语调
因此,研究人员试图克服这些限制,他们在一篇文章中对此进行了解释第二篇文章。他们开发了另一种无监督方法,能够召唤出悲伤、快乐或攻击性的表情,而无需每次都经过参考模型。因此,机器可以独立于口头文本学习表达变化,并将其转换到任何情况下。这种方法甚至适用于环境噪音较大的 YouTube 视频。
以下是人工语音以两种不同风格说出同一句子的示例。
然而,谷歌团队宣布,在开发出通用的公共应用程序之前,它仍然需要大量改进其程序。但有一天,人工智能将能够通过像电影中那样细致入微的声音来唤起人们的感情。她。