旧金山的已宣布启动其新的语音到文本(STT)实时转录模型Nova-3,该版本称其为“行业的第一个声音AI模型,以实现自助定制,从而使用户可以微调专业领域的模型,而无需在机器学习方面具有深厚的专业知识。”
该公司说,在允许轻松,用户友好的自定义方面。“突破了AI驱动的转录的界限,在具有挑战性的音频环境中提供了无与伦比的准确性,同时提供灵活的自助服务定制,从而根据特定于行业的需求来量身定制结果。”
NOVA-3产品在现实情况下在不利的声学条件下的准确性和性能方面改善了其前身。 nova-3以深集的名字称为“特定于域的精度”,利用了一个“高级潜在空间架构将复杂的语音模式编码为高效的表示。”
这意味着即使在嘈杂的环境中,转录也可以精确和准确性,因为Nova-3的机器学习算法也能够压缩和提炼数据更有效。
该模型的语言印章拥有实时多语言支持和特定于行业的语言识别,以识别医学和法律转录等领域的专业术语。它提供了增强的上下文信息和分析。它的数据处理功能通过精确的数值测量和对敏感信息的实时修复进行完善,以合规和。
通过关键任务提示,开发人员可以通过优化多达100个关键条款来提高准确性,从而使部署更加高效和成本效益。
“ Nova-3代表了一个重大的飞跃,扩大了实时准确性的边界,同时再次弯曲了成本曲线 - 企业语音到语音用例的两个关键组成部分。 “通过整合各种数据集的高级建筑增强功能和广泛的培训,我们开发了一种模型,不仅满足,而且超出了各个行业的客户的不断发展需求。”
Deepgram的平台在云或自托管API套件中提供文本到语音(TTS)和完整的语音到语音(STS)功能。根据版本,其高性能运行时包括“强大的自动化和数据功能 - 例如生成和模型策划 - 以及模型热量汇总和强大的集成,使开发人员有能力有效地构建和扩展语音的应用程序。”
Deepgram在基准测试中以转录精度为基准,以评估性善良的态度来支持其PR。 “ NOVA-3在批处理和流式用例中都优于竞争对手,在包括多语言场景在内的现实世界音频环境中,始终较低的单词错误率(WER)可以推动出色的性能。”
Nova-3的多语言功能,该功能旨在使公司在全球范围内缩放,效对七种语言的测试小声说。
文章主题
||