Meta 剛剛揭開了 Voicebox 的面紗,這是一種能夠模仿人類聲音的人工智慧。該模型利用數千小時的錄音,可以將文字轉換為音訊檔案。意識到風險,Meta 已採取預防措施以避免過度行為...
Meta 繼續在人工智慧領域為自己開闢一席之地。門洛帕克巨頭已上線大量人工智慧模型在過去的幾個月裡,從LLaMA,大型語言模型元人工智慧。該模型可供開發人員使用,使得設計大量個人化聊天機器人成為可能,包括FreedomGPT,未經審查的對話機器人。
Meta 的人工智慧如何模仿你的聲音
最近,Meta 還推出了“JEPA”,這是一個非常不同的模型,旨在接近人類智能,等音樂產生器,根據描述生成音樂的人工智慧。馬克·祖克柏的公司現在正在路上語音盒。這種生成式人工智慧旨在創建語音檔案。簡而言之,人工智慧可以「說出」演講並將其保存在音訊檔案中。
這個系統《語音合成》需要“持續兩秒的音訊樣本”發揮作用。受這個例子的啟發,人工智慧將生成演講以摘錄中聽到的人的方式。據母公司解釋Facebook在他的報告中,“Voicebox 經過訓練,可以在給定周圍語音和轉錄的情況下預測語音片段。”
具體來說,您可以僅以一個簡短的音訊檔案為例來模擬親人或歌手的聲音。人工智慧也利用文字的上下文來校準其輸出。同樣,聲音風格可以應用於已經存在的演講。 AI可以用另一個人的聲音來代替最初的聲音。
“Voicebox 可以產生更能代表人們在現實世界中說話方式的語音”,元解釋道。
無限可能
Meta 在其新聞稿中指出,人工智慧還可以讓編輯音訊檔案變得更容易。例如,Voicebox 能夠消除背景中的汽車喇叭或狗叫聲。如果聲音破壞了文件的和諧,人工智慧可以刪除有問題的部分,並從頭到尾重新生成。
錦上添花的是 Voicebox 模型是多國語言的。它支持六種不同的語言,即英語、法語、西班牙語、德語、波蘭語和葡萄牙語。根據 Meta 的說法,生成式人工智慧甚至可以促進不同語言的人之間的交流。事實上,該模型可以用初始音訊檔案以外的語言發出語音。用英語錄製的訊息很可能會產生西班牙語或法語的音訊檔案。根據設計者介紹,Voicebox 還可以為靜音或靜音的人發出聲音。個性化虛擬助理的印章或者遊戲中不可玩的角色。
不出所料,該模型基於堆積如山的數據執行分配給他的任務。梅塔解釋說,他主要為模型提供了錄製的演講和有聲讀物,可以免費訪問,用不同的語言編寫。在訓練階段,模型總共消耗了超過 50,000 小時的音訊。
具體來說,該模型是基於所謂的技術進行訓練的流量匹配,由 Meta 研究人員發明。它允許人工智慧基於資料庫進行學習,該資料庫的數據未經研究人員仔細標記,從而節省了時間。
儘管有許多優點,Voicebox 仍然存在某些限制。此模型主要透過有聲書進行訓練,在產生簡單對話方面效率不高,通常會散佈自發性的非語言表達。同樣,聲音的風格、語氣和情感有時仍然很難讓演算法理解。
無法存取原始碼
與它的習慣相反,Meta 目前不會提供對 AI 原始碼的存取。雖然它是“與社區開放並分享我們的研究非常重要”,門洛帕克巨人將矛頭指向了一個重要的“潛在的誤用和意外傷害”。毫不奇怪,Meta 擔心人工智慧會被用來模仿個人或以藝術家的方式生成歌曲。
同時,Meta 正在開發一種工具,能夠確定語音是否是由人工智慧產生的,或者是否是真實的摘錄。這個舉措有點讓人想起OpenAI開發的探測器識別想像的內容聊天GPT。
請注意,這並不是第一個能夠根據語音樣本產生音訊語音的人工智慧模型。情況也是如此VALL-E,微軟開發的模型。只需三秒的範例,該工具就可以不停地模仿聲音。 VALL-E 鏡像 Voicebox 與現有生成器(例如 Elevenlab 的 Speechify 或 Prime Voice)的不同之處在於減少了設計音訊檔案所需的資料量。透過非常短的樣本,現在可以模仿一個人的聲音...
Opera One - AI 驅動的網頁瀏覽器
作者:歌劇
來源 : 元