微軟推出人工智慧，只要三秒就能模仿你的聲音

2023-01-10

透過在聽到人聲後進行合成，微軟的人工智慧可以“為他們說話”，同時保留人的語氣、情緒和聲音環境。然而，VALL-E 的創建者仍然保持謹慎。

不用多說，AI 幫你搞定

在 Microsoft，VALL-E 被認為是《神經編解碼器語言模型》。人工智慧是一種能夠產生語音的文字轉語音模型。這並不是什麼新鮮事，但 VALL-E 因其學習速度（只需三秒鐘）以及複製說話者情緒的能力而脫穎而出。人工智慧的另一個區別：創造說話者從未說過的單字和短語的錄音s。

為了實現這一目標，人工智慧接受了 7,000 多名閱讀免費公共領域有聲讀物的說話者所說的超過 60,000 小時的英語語音資料的訓練在 LibriVox 上可用。

這Microsoft 在 Github 上分享的片段分為四列。第一個，« 喇叭提示 »，是 VALL-E 必須模仿的三秒音訊。第二個，《地面真相》，是同一說話者預先存在的錄音，因此可以進行比較。第三個「基線」是傳統語音合成的一個例子。最後，「VALL-E」是微軟AI口語的摘錄。

很驚訝 VALL-E 周圍沒有更多的閒聊

這個新模型由@微軟僅聽到該聲音的 3 秒樣本後就可以產生任何聲音的語音 🤯

演示 →https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc

— 史蒂文·泰 (@steventey)2023 年 1 月 9 日

我們可以聽到相當不同的結果。有些聽起來確實像人的聲音，而有些則顯然是由機器人口述的。這顯然只是一個開始，因為人工智慧會隨著時間的推移而不斷改進。另請記住，起始樣本只有三秒長。我們想像，有了更多的數據，VALL-E 將能夠產生更有說服力的結果。