Google正在展示一种新的翻译工具,该工具比其更具动力和功能更强大翻译应用程序。该工具称为Translatotron,将语音直接转换,并以用户自己的声音将其吐出来启动。
Translatotron是一种初始的翻译模型,可以将语音直接转换为另一种语言,而不是将语音转换为文本,然后将其转换回语音。通常,语音翻译使用自动语音识别将语音转换为文本,然后使用文本到语音生成翻译的软件。但是在这个新模型中,翻译错误可能会更少。谷歌希望这种端到端的技术将在将语音转换为另一种语言方面开放未来的发展。
Google Translatotron
作为Google解释,Translatotron使用一个序列到序列网络模型,该模型采用语音输入,将其作为频谱图处理,并以目标语言创建新的频谱图。结果,翻译的速度更快且不太可能在此过程中产生错误。由于该工具可与频谱图一起使用,因此可以使用与源语音非常相似的可选扬声器编码器。这意味着Translatotron不仅可以将演讲从一种语言直接转换为另一种语言,还可以匹配用户的节奏,音调和其他使声音与众不同的方面。
作为Engadget笔记,模仿并不完美。由此产生的声音听起来仍然是机器人的,但是它确实保持了扬声器声音的某些元素。可以在Google Research的GitHub上找到音频样本页。当然,它并不总是正确的。但是,与任何创新一样,将需要一些时间才能完善。无论如何,这是一个开始。
Google在其博客文章中写道:“据我们所知,Translatotron是第一个可以将语音从一种语言直接转化为另一种语言的语言的端到端模型。” “它还能够在翻译的演讲中保留源说话者的声音。”
蓝色得分
为了衡量其效率和翻译质量,Google使用了测量的BLEU标题。尽管结果落后于常规翻译系统,但Google表示,它已经证明了端到端直接语音到语音翻译的可行性。更重要的是,翻译比基线级联翻译实现了更准确的翻译。
有关翻译工具的详细信息将在刚刚发布的纸称为“具有序列到序列模型的直接语音到语音翻译”。该工具是在Google引入Specaugment的一个月之后,这是一种人工智能模型,该模型结合了计算机视觉和一系列技术,以从频谱图像中收集单词。