他一邊說話,一邊思考:這就是 Moshi 的聊天機器人,是 Kyutai 開發的原型 AI 模型。法國人工智慧研究實驗室(由 Xavier Niel 等資助)在 7 月初的一項技術演示讓所有人感到驚訝,值得採訪其執行長 Patrick Perez。
7 月 3 日,Kyutai 揭開了 Moshi 的面紗,這是一個配備了前所未有的語音能力的人工智慧模型。聊天機器人原型已經向媒體邁出了第一步,但目前也可供所有人使用。地址。原型的特殊性在於能夠以盡可能自然和富有表現力的方式進行口頭交流,同時保持對對話者的關注。
Moshi 的多式聯運模型還可以在本地安裝,無需互聯網連接即可運行。 Kyutai 基金會將此模型作為開源提供,以便為 AI 生態系統的研究和開發做出貢獻。我們想進一步了解 Moshi 及其實驗室及其執行長 Patrick Perez。
Moshi 是一款語音助手,在某些關鍵領域的功能超過了 GPT-4o:它可以同時說話和聆聽,同時繼續生成“思想流”,這有時在使用中會令人不安。 Moshi 是最接近人類對話「體驗」的東西嗎?
莫西聊天室不是語音助手,而是基於 Moshi 構建的實驗原型,Moshi 是我們從頭開始開發的通用多模態文字語音模型。事實上,這個原型在自然性和流暢性方面展示了前所未有的口頭互動能力。
Moshi 的可能用途是什麼?您希望這項技術在哪些領域中發揮作用?
這種多模式模型的潛在應用有很多:
1/ 與人工智慧(助理或同儕)進行自然的口頭對話,以實現包容性和可訪問性、教育、輔導、遊戲、客戶服務、資訊搜尋、互動式機器人等。
2/ 富有表現力的多揚聲器語音合成,用於音訊存取書面內容、文化和藝術作品的創作、遊戲等。
3/ 用於溝通和無障礙的同步音訊翻譯。
Moshi 需要 8 個人的團隊花費 6 個月的時間進行開發,考慮到所有因素,這似乎微不足道。這是否意味著現在設計像 Moshi 這樣的助手相對容易?
這其實是一個成就!除了以極其緊張和專注的方式工作以及擁有足夠的計算資源之外,這還需要具有非常專業和互補的技能。對於最後一點,我們從 Scaleway 租用了非常強大的機器,這要感謝我們三位創始人的大量捐贈。
Moshi 聽得懂多種口音,但助理目前只說英語。是否有長期規劃其他語言以及一個附屬問題,讓LLM學習其他語言複雜嗎?
我們計劃包括其他語言,首先是法語和西班牙語。話雖如此,我們的想法是自由共享我們的模型和程式碼,使它們能夠全部或部分地重新訓練。因此,考慮到其他語言,即使實現起來並不簡單,生態系統中的其他參與者也可以透過必要的資源(資料、技術、機器)和適當的用例來完成。
Moshi 所基於的法學碩士 Helium 有 70 億個參數,這可能看起來很多,但與其他法學碩士相比如何(不知道 GPT-4 有多少參數),最重要的是——質量如何LLM 的參數數量有限嗎?您使用了哪些訓練資料?
這是一個中型型號。 「小」模型大約有 200 到 30 億個參數,「大」模型的大小從幾十到幾百(甚至幾千?)數十億個參數不等。規模並不代表一切,但有了正確的數據(數量和品質)和最新的學習技術,更大的規模通常會在更廣泛的任務中帶來更好的表現。對於 Helium 預訓練,我們使用相當標準的網路資料組合,特別是來自 CommonCrawl 專案的資料。大約寫了一十億(一兆)字。
Moshi 的學習過程還涉及 100,000 次口語對話和文字轉語音引擎。現在,我需要你向我解釋它是如何運作的!
Helium「編寫」這 100,000 個對話,而早期版本的 Moshi 允許對給定的聲音進行語音合成,將其轉換為音訊對話。
莫西的「聲音」背後是否有人?
我們與一位配音藝術家合作,透過他的錄音,我們可以修復上述 100,000 次對話中的 AI 聲音。
Kyutai 還開發了 Moshi 的變體,用於本地操作,因此不需要網路連線。可以透過 GPU 在您的個人電腦上使用它。有兩個問題:越來越多的 PC 和 Mac 都配備了 NPU,為什麼不使用 NPU?智慧型手機的「奈米」版本是否可能?
我們的模型目前設計為在 Nvidia GPU 上進行訓練和使用。因此,壓縮本地版本的演示自然是在相同類型的晶片上進行的,但尺寸較小。作為一個研究實驗室,我們主要希望展示我們模型的嵌入式版本的可行性。我們希望共享這些模板和相關程式碼將允許其他人根據他們的需求進一步實現可移植性。是的,我們最終可以想像一個更小、更專業的 Moshi 在行動裝置上運作。
當我們談論生成式人工智慧時,安全問題很快就會出現。如何確保Moshi不被惡意利用?
與其他生成式人工智慧一樣,「微調」(大規模無監督預學習之後的監督學習階段)的一部分致力於加強安全性以及其他功能。此外,我們正在研究模型產生的內容的隱形標記,這是一個既困難又重要的研究問題。
最後,我們堅信開源在安全性方面的優點(除其他外):更多的參與者可以檢查、評估和保護由此共享的模型。在某種程度上,惡意使用越來越強大(在控制和現實主義方面)和越來越多的生成模型是不可避免的,不斷普及和宣傳這些技術主題對於限制損害至關重要。
莫西的未來會是怎樣?
我們正在繼續開發它,以提高其一些功能(相關性、表達性、語言)…我們期待在我們共享模型、程式碼和技術資訊後看到生態系統將如何使用和修改它(正在進行中) 。
Kyutai 在法國乃至歐洲都擁有相當獨特的地位,因為實驗室是由 Xavier Niel 資助的。與其他投資者首先尋求獲利能力的人工智慧公司相比,這是否安全?
也由埃里克·施密特和魯道夫·薩德資助;這三個人都是捐款者,而不是投資者(我們是一個基金會)。所以,是的,這確保了我們在研究選擇和團隊組成方面具有極大的獨立性,同時擁有特殊的資源。