谷歌刚刚推出了 Translatotron,这是一种能够直接将口语从一种语言翻译成另一种语言的模型。翻译工具的语音合成解决方案不仅可以再现说话者的声音,还可以再现他们的节奏。这就是谷歌所说的“直接翻译”。
Translatotron 接收语音输入,将其处理为频谱图(频率的视觉表示),并以目标语言生成新的频谱图。结果是翻译速度更快,出错的机会更少。
不再经过写作
语音到语音翻译系统过去已经存在。但他们将语音转录成文本进行翻译,然后生成合成语音来读取结果。问题是这些不同的步骤是错误的来源并减慢了执行速度。谷歌 Translatotron 的结果仍然有点机械化,远非完美,但它代表了真正的进步,最终应该会让谷歌翻译受益。
来源 :谷歌人工智能博客
Opera One - AI 驱动的网络浏览器
作者:歌剧