谷歌剛剛推出了 Translatotron,這是一個能夠直接將口語從一種語言翻譯成另一種語言的模型。翻譯工具的語音合成解決方案不僅可以再現說話者的聲音,還可以再現他們的節奏。這就是谷歌所說的「直接翻譯」。
Translatotron 接收語音輸入,將其處理為頻譜圖(頻率的視覺表示),並以目標語言產生新的頻譜圖。結果是翻譯速度更快,出錯的機會也更少。
不再經過寫作
語音到語音翻譯系統過去已經存在。但他們將語音轉錄成文字進行翻譯,然後產生合成語音來讀取結果。問題是這些不同的步驟是錯誤的來源並減慢了執行速度。 Google Translatotron 的結果仍然有點機械化,遠非完美,但它代表了真正的進步,最終應該會讓Google翻譯受益。
來源 :谷歌人工智慧博客
Opera One - AI 驅動的網頁瀏覽器
作者:歌劇