微軟剛剛揭開了 VALL-E 2 的面紗,這是一種能夠模仿人類聲音的新型人工智慧。顧名思義,這是第二次迭代谷,一種高效的語音合成模型。該人工智慧在 2023 年 1 月宣布,能夠在短短三秒內模仿人類的聲音。
第二個版本旨在更有效。根據微軟的說法,這是無法區分 VALL-E 2 所產生的 Deepfake 聲音以真人的聲音。人工智慧已經達到“人類第一次平等”,歡迎美國出版商造訪其網站。到目前為止,由於措辭或語調上的小缺陷,人工智慧作品仍然可以被識別。
為了改善VALL-E的渲染效果,微軟在AI處理語音資料的方式上增加了兩項創新。這些設計上的改變讓人工智慧能夠準確自然地合成語音,“即使對於傳統上由於其複雜性或重複短語而困難的句子”。
聲音深度造假的危險
微軟認為 VALL-E 2 可以跨產業使用,例如“教育學習、娛樂、新聞、自寫內容、輔助功能、互動式語音應答系統、翻譯、聊天機器人 »。此外,該公司還看到了利用人工智慧幫助殘疾人的可能性。
毫不奇怪,微軟仍然意識到風險由其語音產生器構成。透過利用 VALL-E 這樣的模型,惡意者將能夠在通話期間欺騙親人、名人或政客的聲音。只需一個電話就能說服某人將錢存入帳戶或分享敏感資訊。在新聞稿中,微軟表示它意識到“濫用模型的潛在風險,例如語音模仿或特定說話者的模仿 »。
這為各種濫用行為打開了大門,特別是因為許多網路犯罪分子已經在利用深度造假技術精心策劃網路攻擊。人工智慧產生的內容已經使騙子能夠進行大規模的金融詐欺。我們還要提到虛假資訊的風險。
因此,作為預防措施,微軟拒絕向網路使用者提供人工智慧。他不是“沒有計劃將 VALL-E 2 整合到產品中或擴大公共訪問範圍”目前。 VALL-E 2 僅供研究用途。
來源 : 微軟