繼微軟之後，Meta 推出了能夠在幾秒鐘內模仿你的聲音的人工智慧

Meta 剛剛揭開了 Voicebox 的面紗，這是一種能夠模仿人類聲音的人工智慧。該模型利用數千小時的錄音，可以將文字轉換為音訊檔案。意識到風險，Meta 已採取預防措施以避免過度行為...

Meta 繼續在人工智慧領域為自己開闢一席之地。門洛帕克巨頭已上線大量人工智慧模型在過去的幾個月裡，從LLaMA，大型語言模型元人工智慧。該模型可供開發人員使用，使得設計大量個人化聊天機器人成為可能，包括FreedomGPT，未經審查的對話機器人。

Meta 的人工智慧如何模仿你的聲音

最近，Meta 還推出了“JEPA”，這是一個非常不同的模型，旨在接近人類智能，等音樂產生器，根據描述生成音樂的人工智慧。馬克·祖克柏的公司現在正在路上語音盒。這種生成式人工智慧旨在創建語音檔案。簡而言之，人工智慧可以「說出」演講並將其保存在音訊檔案中。

這個系統《語音合成》需要“持續兩秒的音訊樣本”發揮作用。受這個例子的啟發，人工智慧將生成演講以摘錄中聽到的人的方式。據母公司解釋Facebook在他的報告中，“Voicebox 經過訓練，可以在給定周圍語音和轉錄的情況下預測語音片段。”

具體來說，您可以僅以一個簡短的音訊檔案為例來模擬親人或歌手的聲音。人工智慧也利用文字的上下文來校準其輸出。同樣，聲音風格可以應用於已經存在的演講。 AI可以用另一個人的聲音來代替最初的聲音。

“Voicebox 可以產生更能代表人們在現實世界中說話方式的語音”，元解釋道。

另請閱讀：假 ChatGPT 正在接管網路——Meta 的警告

無限可能

Meta 在其新聞稿中指出，人工智慧還可以讓編輯音訊檔案變得更容易。例如，Voicebox 能夠消除背景中的汽車喇叭或狗叫聲。如果聲音破壞了文件的和諧，人工智慧可以刪除有問題的部分，並從頭到尾重新生成。

錦上添花的是 Voicebox 模型是多國語言的。它支持六種不同的語言，即英語、法語、西班牙語、德語、波蘭語和葡萄牙語。根據 Meta 的說法，生成式人工智慧甚至可以促進不同語言的人之間的交流。事實上，該模型可以用初始音訊檔案以外的語言發出語音。用英語錄製的訊息很可能會產生西班牙語或法語的音訊檔案。根據設計者介紹，Voicebox 還可以為靜音或靜音的人發出聲音。個性化虛擬助理的印章或者遊戲中不可玩的角色。

不出所料，該模型基於堆積如山的數據執行分配給他的任務。梅塔解釋說，他主要為模型提供了錄製的演講和有聲讀物，可以免費訪問，用不同的語言編寫。在訓練階段，模型總共消耗了超過 50,000 小時的音訊。

具體來說，該模型是基於所謂的技術進行訓練的流量匹配，由 Meta 研究人員發明。它允許人工智慧基於資料庫進行學習，該資料庫的數據未經研究人員仔細標記，從而節省了時間。

儘管有許多優點，Voicebox 仍然存在某些限制。此模型主要透過有聲書進行訓練，在產生簡單對話方面效率不高，通常會散佈自發性的非語言表達。同樣，聲音的風格、語氣和情感有時仍然很難讓演算法理解。

無法存取原始碼

與它的習慣相反，Meta 目前不會提供對 AI 原始碼的存取。雖然它是“與社區開放並分享我們的研究非常重要”，門洛帕克巨人將矛頭指向了一個重要的“潛在的誤用和意外傷害”。毫不奇怪，Meta 擔心人工智慧會被用來模仿個人或以藝術家的方式生成歌曲。

同時，Meta 正在開發一種工具，能夠確定語音是否是由人工智慧產生的，或者是否是真實的摘錄。這個舉措有點讓人想起OpenAI開發的探測器識別想像的內容聊天GPT。

請注意，這並不是第一個能夠根據語音樣本產生音訊語音的人工智慧模型。情況也是如此VALL-E，微軟開發的模型。只需三秒的範例，該工具就可以不停地模仿聲音。 VALL-E 鏡像 Voicebox 與現有生成器（例如 Elevenlab 的 Speechify 或 Prime Voice）的不同之處在於減少了設計音訊檔案所需的資料量。透過非常短的樣本，現在可以模仿一個人的聲音...