OpenAI 推出 Whisper：可支援 99 種語言的語音辨識系統

2022-09-28

OpenAI 由伊隆馬斯克等人創立，是一家專門從事人工智慧的公司。她因其 DALL-E 系統而聞名，該系統允許根據描述來設計作品。該系統還允許在現有影像周圍添加元素。但 OpenAI 剛剛在另一個領域進行了交流：語音辨識。該公司正在啟動一個名為「開源」的項目耳語它允許您將語音轉換為英語文本，也可以轉換為其他語言的文本。與模板相關聯，該程式提供轉錄功能，也提供英語翻譯。當人們不說話時，它還必須能夠忽略背景噪音，例如音樂。最後，它能夠自動偵測口語。

輸入音訊被切割成 30 秒的區塊，然後轉換為頻譜圖。 Whisper 的架構對每個區塊都遵循簡單的編碼/解碼原理：

為此，OpenAI 使用 680,000 小時的資料訓練了一個神經網路。其中，438,000 小時對應於帶有英文轉錄的英語。 126,000 小時的部分是其他語言及其英文翻譯，而 117,000 小時是英語以外的語言及其相應的母語轉錄。總共使用99種語言進行了學習。結果表明，當神經網路受益於更多時間的訓練時，Whisper 的轉錄表現會更好。

在某些情況下更強大的系統

市場上已經有許多自動語音辨識 (ASR) 系統，例如蘋果、微軟、亞馬遜和谷歌使用的系統。但根據 OpenAI 研究，Whisper 中使用的模型在處理口音、背景噪音和技術術語方面表現出更好的穩健性。

因為語音辨識的問題在於學習階段缺乏語言多樣性。因此，一個史丹佛大學研究2019 年春季在亞馬遜、蘋果、谷歌、IBM 和微軟的系統上進行的一項調查顯示，黑人用戶的錯誤率幾乎是白人用戶的兩倍：平均每百個單字有41 個錯誤，而白人用戶的錯誤率幾乎是白人用戶的兩倍。女性的錯誤數量平均為 30 次，而女性的錯誤數量為 17 次。

然而，OpenAI 系統存在以下問題：限制：它在英語中特別有效，並且可以在轉錄中包含使用者未說出的單字。這是因為它嘗試轉錄音頻，同時預測句子中的下一個單字是什麼。 OpenAI 也強調不同口音和方言帶來的表現差異。

耳語可用於吉圖布適用於人工智慧研究人員，也適用於希望在程式中使用該系統的開發人員，但需要對設定進行細化。

🔴為了不錯過01net的任何新聞，請關注我們谷歌新聞等WhatsApp。

來源：科技克隆奇

在某些情況下更強大的系統

相關貼文