舊金山的已宣布啟動其新的語音到文本(STT)實時轉錄模型Nova-3,該版本稱其為“行業的第一個聲音AI模型,以實現自助定制,從而使用戶可以微調專業領域的模型,而無需在機器學習方面具有深厚的專業知識。”
該公司說,在允許輕鬆,用戶友好的自定義方面。“突破了AI驅動的轉錄的界限,在具有挑戰性的音頻環境中提供了無與倫比的準確性,同時提供靈活的自助服務定制,從而根據特定於行業的需求來量身定制結果。”
NOVA-3產品在現實情況下在不利的聲學條件下的準確性和性能方面改善了其前身。 nova-3以深集的名字稱為“特定於域的精度”,利用了一個“高級潛在空間架構將復雜的語音模式編碼為高效的表示。”
這意味著即使在嘈雜的環境中,轉錄也可以精確和準確性,因為Nova-3的機器學習算法也能夠壓縮和提煉數據更有效。
該模型的語言印章擁有實時多語言支持和特定於行業的語言識別,以識別醫學和法律轉錄等領域的專業術語。它提供了增強的上下文信息和分析。它的數據處理功能通過精確的數值測量和對敏感信息的實時修復進行完善,以合規和。
通過關鍵任務提示,開發人員可以通過優化多達100個關鍵條款來提高準確性,從而使部署更加高效和成本效益。
“ Nova-3代表了一個重大的飛躍,擴大了實時準確性的邊界,同時再次彎曲了成本曲線 - 企業語音到語音用例的兩個關鍵組成部分。 “通過整合各種數據集的高級建築增強功能和廣泛的培訓,我們開發了一種模型,不僅滿足,而且超出了各個行業的客戶的不斷發展需求。”
Deepgram的平台在雲或自託管API套件中提供文本到語音(TTS)和完整的語音到語音(STS)功能。根據版本,其高性能運行時包括“強大的自動化和數據功能 - 例如生成和模型策劃 - 以及模型熱量匯總和強大的集成,使開發人員有能力有效地構建和擴展語音的應用程序。”
Deepgram在基準測試中以轉錄精度為基準,以評估性善良的態度來支持其PR。 “ NOVA-3在批處理和流式用例中都優於競爭對手,在包括多語言場景在內的現實世界音頻環境中,始終較低的單詞錯誤率(WER)可以推動出色的性能。”
Nova-3的多語言功能,該功能旨在使公司在全球範圍內縮放,效對七種語言的測試小聲說。
文章主題
||