透過在聽到人聲後進行合成,微軟的人工智慧可以“為他們說話”,同時保留人的語氣、情緒和聲音環境。然而,VALL-E 的創建者仍然保持謹慎。
不用多說,AI 幫你搞定
在 Microsoft,VALL-E 被認為是《神經編解碼器語言模型》。人工智慧是一種能夠產生語音的文字轉語音模型。這並不是什麼新鮮事,但 VALL-E 因其學習速度(只需三秒鐘)以及複製說話者情緒的能力而脫穎而出。人工智慧的另一個區別:創造說話者從未說過的單字和短語的錄音s。
為了實現這一目標,人工智慧接受了 7,000 多名閱讀免費公共領域有聲讀物的說話者所說的超過 60,000 小時的英語語音資料的訓練在 LibriVox 上可用。
這Microsoft 在 Github 上分享的片段分為四列。第一個,« 喇叭提示 »,是 VALL-E 必須模仿的三秒音訊。第二個,《地面真相》,是同一說話者預先存在的錄音,因此可以進行比較。第三個「基線」是傳統語音合成的一個例子。最後,「VALL-E」是微軟AI口語的摘錄。
很驚訝 VALL-E 周圍沒有更多的閒聊
這個新模型由@微軟僅聽到該聲音的 3 秒樣本後就可以產生任何聲音的語音 🤯
演示 →https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
— 史蒂文·泰 (@steventey)2023 年 1 月 9 日
我們可以聽到相當不同的結果。有些聽起來確實像人的聲音,而有些則顯然是由機器人口述的。這顯然只是一個開始,因為人工智慧會隨著時間的推移而不斷改進。另請記住,起始樣本只有三秒長。我們想像,有了更多的數據,VALL-E 將能夠產生更有說服力的結果。
微軟不想急
微軟意識到,如果 VALL-E 落入壞人之手,可能會導致濫用,因此微軟尚未分享其 AI 程式碼。因此,目前還無法親自測試人工智慧。微軟用以下的話結束了它的演講:
「由於 VALL-E 可以合成構成說話者身分的語音,因此可能存在誤用的風險,例如語音 ID 欺騙或冒充特定說話者。為了減輕這些風險,可以建立一個偵測模型來確定音訊剪輯是否是由 VALL-E 合成的。在進一步發展模型時,我們也將把微軟人工智慧的道德原則付諸實行。 »
身分被盜後感謝深度造假 並到使用 ChatGPT 在學校環境中作弊,微軟希望確保在更廣泛地使用其人工智慧之前採取適當的保護措施。
來源 : 元宇宙郵報