OpenAI 推出 Whisper：可支持 99 种语言的语音识别系统

2022-09-28

OpenAI 由埃隆·马斯克等人创立，是一家专门从事人工智能的公司。她因其 DALL-E 系统而闻名，该系统允许根据描述来设计作品。该系统还允许在现有图像周围添加元素。但 OpenAI 刚刚在另一个领域进行了交流：语音识别。该公司正在启动一个名为“开源”的项目耳语它允许您将语音转换为英语文本，也可以转换为其他语言的文本。与模板相关联，该程序提供转录功能，还提供英语翻译。当人不说话时，它还必须能够忽略背景噪音，例如音乐。最后，它能够自动检测口语。

输入音频被切割成 30 秒的块，然后转换为频谱图。 Whisper 的架构对每个块都遵循简单的编码/解码原理：

为此，OpenAI 使用 680,000 小时的数据训练了一个神经网络。其中，438,000 小时对应于带有英文转录的英语。 126,000小时部分是其他语言及其英文翻译，而117,000小时是英语以外的语言及其相应的母语转录。总共使用99种语言进行了学习。结果表明，当神经网络受益于更多时间的训练时，Whisper 的转录性能会更好。

在某些情况下更强大的系统

市场上已经有许多自动语音识别 (ASR) 系统，例如苹果、微软、亚马逊和谷歌使用的系统。但根据 OpenAI 研究，Whisper 中使用的模型在处理口音、背景噪音和技术术语方面表现出更好的鲁棒性。

因为语音识别的问题在于学习阶段缺乏语言多样性。因此，一个斯坦福大学研究2019 年春季在亚马逊、苹果、谷歌、IBM 和微软的系统上进行的测试显示，黑人用户的错误率几乎是白人用户的两倍：平均每百个单词有 41 个错误，而白人用户的错误率几乎是白人用户的两倍。 21 个错误。女性的错误数量平均为 30 次，而女性的错误数量为 17 次。

然而，OpenAI 系统存在以下问题：局限性：它在英语中特别有效，可以在转录中包含用户未说过的单词。这是因为它尝试转录音频，同时预测句子中的下一个单词是什么。 OpenAI 还强调不同口音和方言带来的性能差异。

耳语可用于吉图布适用于人工智能研究人员，也适用于希望在程序中使用该系统的开发人员，但需要对设置进行细化。

🔴为了不错过任何01net新闻，请关注我们谷歌新闻等WhatsApp。

来源：科技克鲁奇

在某些情况下更强大的系统

相關貼文