OpenAI 由伊隆馬斯克等人創立,是一家專門從事人工智慧的公司。她因其 DALL-E 系統而聞名,該系統允許根據描述來設計作品。該系統還允許在現有影像周圍添加元素。但 OpenAI 剛剛在另一個領域進行了交流:語音辨識。該公司正在啟動一個名為「開源」的項目耳語 它允許您將語音轉換為英語文本,也可以轉換為其他語言的文本。與模板相關聯,該程式提供轉錄功能,也提供英語翻譯。當人們不說話時,它還必須能夠忽略背景噪音,例如音樂。最後,它能夠自動偵測口語。
輸入音訊被切割成 30 秒的區塊,然後轉換為頻譜圖。 Whisper 的架構對每個區塊都遵循簡單的編碼/解碼原理:
為此,OpenAI 使用 680,000 小時的資料訓練了一個神經網路。其中,438,000 小時對應於帶有英文轉錄的英語。 126,000 小時的部分是其他語言及其英文翻譯,而 117,000 小時是英語以外的語言及其相應的母語轉錄。總共使用99種語言進行了學習。結果表明,當神經網路受益於更多時間的訓練時,Whisper 的轉錄表現會更好。
在某些情況下更強大的系統
市場上已經有許多自動語音辨識 (ASR) 系統,例如蘋果、微軟、亞馬遜和谷歌使用的系統。但根據 OpenAI 研究,Whisper 中使用的模型在處理口音、背景噪音和技術術語方面表現出更好的穩健性。
因為語音辨識的問題在於學習階段缺乏語言多樣性。因此,一個史丹佛大學研究2019 年春季在亞馬遜、蘋果、谷歌、IBM 和微軟的系統上進行的一項調查顯示,黑人用戶的錯誤率幾乎是白人用戶的兩倍:平均每百個單字有41 個錯誤,而白人用戶的錯誤率幾乎是白人用戶的兩倍。女性的錯誤數量平均為 30 次,而女性的錯誤數量為 17 次。
然而,OpenAI 系統存在以下問題:限制:它在英語中特別有效,並且可以在轉錄中包含使用者未說出的單字。這是因為它嘗試轉錄音頻,同時預測句子中的下一個單字是什麼。 OpenAI 也強調不同口音和方言帶來的表現差異。
耳語可用於吉圖布適用於人工智慧研究人員,也適用於希望在程式中使用該系統的開發人員,但需要對設定進行細化。
來源 : 科技克隆奇