繼文字、圖像和視訊之後,OpenAI 正在解決語音問題。 ChatGPT 的創作者透露了一款名為 Voice Engine 的新工具的預覽版,它可以複製任何聲音和任何口音:它所需要做的就是聽 15 秒的原始聲音。一些令人驚奇的事情......並且令人擔憂。
繼 ChatGPT 和 Dall-E 之後,OpenAI 幾週前推出了 Sora,這是一種可以根據簡單的文字請求生成極其逼真的影片的人工智慧。該型號也將上市年內。
令人不安的現實聲音
但這家加州公司並沒有就此止步:她確實展示了語音引擎,這是一種新工具,可以從 15 秒的錄音中複製聲音。結果也相當驚人,克隆的聲音聽起來非常真實,語調自然,接近模型的語調。 OpenAI 在其網站上在線發布了一些摘錄地點。
Voice Engine 的開發於 2022 年開始,基於耳語,優秀的人工智慧模型,旨在將語音轉錄和翻譯為文字。該 API 已用於讓 ChatGPT 進行對話。
OpenAI對於使用Voice Engine有幾個想法:該引擎可以為兒童和不識字的人提供閱讀幫助;翻譯內容(這也適用於法文);與較少使用語言的人溝通;幫助失聲的人...
語音引擎也可以用作音訊播客的一部分,甚至可以用於廣播或創建有聲書(這讓這些領域的人類專業人士感到沮喪)。TechCrunch東方落下依照 OpenAI 的定價標準:100 萬個字元 15 美元(約 162,500 個單詞,相當於霧都孤兒狄更斯所著)。這是相當實惠的。
這個工具可能有最好的意圖,但不幸的是,毫無疑問它會被濫用於惡意目的。人工智慧的語音克隆已經證明了其危險性,特別是來自假喬拜登的真實自動呼叫。這就是 OpenAI 採取預防措施的原因。
OpenAI 首先認識到克隆選票會帶來嚴重風險,尤其是在繁忙的選舉年。這就是為什麼公司“與美國和國際政府、媒體、娛樂、教育、民間社會等領域的合作夥伴合作» 在開發過程中整合他們的回饋。
一方面,有權存取 Voice Engine 的合作夥伴遵守了 OpenAI 的使用條款,該條款禁止未經本人同意盜用身分或利用語音。這些合作夥伴還必須公佈顏色,並明確表明聲音是由人工智慧產生的。
另一方面,安全措施已經開發出來,例如追蹤聲音來源的浮水印和“主動監控其使用情況」。然而,很難完全放心……OpenAI 明確指出該技術並非人人可用”目前»。
透過發布此概述,該公司希望引發有關政策的辯論,旨在“保護人工智慧對人們聲音的使用» 等 «教育大眾了解人工智慧技術的能力和局限性」。等待第一張單據?
Opera One - AI 驅動的網頁瀏覽器
作者:歌劇
來源 : 開放人工智慧