舊金山的宣布推出新的語音轉文本 (STT) 實時轉錄模型 Nova-3,該模型被稱為“業界首個支持自助定制的語音 AI 模型,允許用戶針對專業領域微調模型,而無需具備深厚的機器學習專業知識。”
該公司表示,Nova-3 允許簡單、用戶友好的定制“突破了人工智能驅動轉錄的界限,在具有挑戰性的音頻環境中提供無與倫比的準確性,同時提供靈活的自助服務定制,以根據行業特定需求定制結果。”
Nova-3 產品在現實場景中的不利聲學條件下(例如空中交通管制、駕車穿過和。 Nova-3 憑藉 Deepgram 所說的“特定領域精度”,利用了“先進的潛在空間將復雜的語音模式編碼為高效表示的架構。 ”
這意味著即使在嘈雜的環境中,也可以精確地呈現轉錄,因為 Nova-3 的機器學習算法能夠壓縮和提取數據更高效。
該模型的語言功能擁有實時多語言支持和行業特定語言識別功能,可識別醫學和法律轉錄等領域的專業術語。它提供增強的上下文信息和分析。其數據處理能力通過精確的數值測量和敏感信息的實時編輯來完善,以確保合規性和。
借助關鍵術語提示,開發人員可以通過優化多達 100 個關鍵術語來提高準確性,從而使部署更加高效且更具成本效益。
Deepgram 首席執行官 Scott Stephenson 表示:“Nova-3 代表了一次重大飛躍,擴展了實時準確性的前沿,同時再次彎曲了成本曲線——這是企業語音到語音用例的兩個關鍵組成部分。” “通過集成先進的架構增強功能和跨不同數據集的廣泛培訓,我們開發了一個模型,不僅滿足而且超越了各行業客戶不斷變化的需求。”
Deepgram 的平台在一套雲或自託管 API 中提供文本轉語音 (TTS) 和完整的語音轉語音 (STS) 功能。根據該版本,其高性能運行時包括“強大的自動化和數據功能 - 例如生成和模型管理——以及模型熱插拔和強大的集成,使開發人員能夠有效地構建和擴展支持語音的應用程序。 ”
Deepgram 在轉錄準確性基準測試中通過真誠的評估來支持其 PR。新聞稿稱:“Nova-3 在批處理和流媒體用例中均優於競爭對手,其字錯誤率 (WER) 持續較低,可在現實音頻環境(包括多語言場景)中實現卓越性能。”
Nova-3 的多語言功能旨在幫助公司在全球範圍內擴展,其表現優於其他公司的 Whisper 在七種語言的測試中。
文章主題
||









