如果您曾经迷失在YouTube视频的迷宫中,那么您可能会偶然发现了阅读新闻文章的计算机剪辑。您会意识到断断续续的声音的机器人性质。
我们已经走了很长一段路”危险!威尔·鲁滨逊!“但是,还有一台计算机可以无缝地模仿人类的声音。
现在,有一个新的竞争者,由辉煌的头脑带给您在深膜后面。 Google宣布了一个新的语音综合程序在Wavenet中,由深神经AI提供动力。
了解语音样本已经为Google语音搜索等程序提供了供电。但是,从这些样本中综合的东西被证明是一个挑战。
现在这样做的最突出的方法是串联TTS(文本到语音)。它将录制语音的片段结合在一起。
主要缺点是该方法无法修改片段以创建新的东西,从而导致了“机器人”的声音。另一种方法是参数TTS,它通过Vocoder传递语音,产生的自然语音更少。
Google的Wavenet使用了完全不同的方法。
它不简单地分析其喂养的音频,而是向它们学习,类似于有多少深神经系统的工作。通过每秒至少16,000个样本工作,Wavenet可以生成自己的原始音频样品。

它可以在没有太多人类干预的情况下做到这一点;它使用统计信息实际预测所需的音频片段,即必须“说”什么。
想听自己吗?公告职位在英语和普通话中都有几个语音样本。该系统还能够综合自己的音乐,因为它可以分析任何声音模式,而不仅仅是语音。
您也可以收听原始作品的样本。也许最令人印象深刻的是,该系统还能够无需输入即可综合语音。
如果TT始终需要输入作为指令,则WaveNet能够在没有路线图的情况下创建语音。
当然,结果只是一连串的胡说八道,但它还包含口腔动作和呼吸的声音。
这表明了系统创建最现实的计算机声音的令人兴奋的潜力。