旧金山的宣布推出新的语音转文本 (STT) 实时转录模型 Nova-3,该模型被称为“业界首个支持自助定制的语音 AI 模型,允许用户针对专业领域微调模型,而无需具备深厚的机器学习专业知识。”
该公司表示,Nova-3 允许简单、用户友好的定制“突破了人工智能驱动转录的界限,在具有挑战性的音频环境中提供无与伦比的准确性,同时提供灵活的自助服务定制,以根据行业特定需求定制结果。”
Nova-3 产品在现实场景中的不利声学条件下(例如空中交通管制、驾车穿过和。 Nova-3 凭借 Deepgram 所说的“特定领域精度”,利用了“先进的潜在空间将复杂的语音模式编码为高效表示的架构。”
这意味着即使在嘈杂的环境中,也可以精确地呈现转录,因为 Nova-3 的机器学习算法能够压缩和提取数据更高效。
该模型的语言功能拥有实时多语言支持和行业特定语言识别功能,可识别医学和法律转录等领域的专业术语。它提供增强的上下文信息和分析。其数据处理能力通过精确的数值测量和敏感信息的实时编辑来完善,以确保合规性和。
借助关键术语提示,开发人员可以通过优化多达 100 个关键术语来提高准确性,从而使部署更加高效且更具成本效益。
Deepgram 首席执行官 Scott Stephenson 表示:“Nova-3 代表了一次重大飞跃,扩展了实时准确性的前沿,同时再次弯曲了成本曲线——这是企业语音到语音用例的两个关键组成部分。” “通过集成先进的架构增强功能和跨不同数据集的广泛培训,我们开发了一个模型,不仅满足而且超越了各行业客户不断变化的需求。”
Deepgram 的平台在一套云或自托管 API 中提供文本转语音 (TTS) 和完整的语音转语音 (STS) 功能。根据该版本,其高性能运行时包括“强大的自动化和数据功能 - 例如生成和模型管理——以及模型热插拔和强大的集成,使开发人员能够有效地构建和扩展支持语音的应用程序。”
Deepgram 在转录准确性基准测试中通过真诚的评估来支持其 PR。新闻稿称:“Nova-3 在批处理和流媒体用例中均优于竞争对手,其字错误率 (WER) 持续较低,可在现实音频环境(包括多语言场景)中实现卓越性能。”
Nova-3 的多语言功能旨在帮助公司在全球范围内扩展,其表现优于其他公司的 Whisper 在七种语言的测试中。
文章主题
||









