OpenAI 由埃隆·马斯克等人创立,是一家专门从事人工智能的公司。她因其 DALL-E 系统而闻名,该系统允许根据描述来设计作品。该系统还允许在现有图像周围添加元素。但 OpenAI 刚刚在另一个领域进行了交流:语音识别。该公司正在启动一个名为“开源”的项目耳语 它允许您将语音转换为英语文本,也可以转换为其他语言的文本。与模板相关联,该程序提供转录功能,还提供英语翻译。当人不说话时,它还必须能够忽略背景噪音,例如音乐。最后,它能够自动检测口语。
输入音频被切割成 30 秒的块,然后转换为频谱图。 Whisper 的架构对每个块都遵循简单的编码/解码原理:
为此,OpenAI 使用 680,000 小时的数据训练了一个神经网络。其中,438,000 小时对应于带有英文转录的英语。 126,000小时部分是其他语言及其英文翻译,而117,000小时是英语以外的语言及其相应的母语转录。总共使用99种语言进行了学习。结果表明,当神经网络受益于更多时间的训练时,Whisper 的转录性能会更好。
在某些情况下更强大的系统
市场上已经有许多自动语音识别 (ASR) 系统,例如苹果、微软、亚马逊和谷歌使用的系统。但根据 OpenAI 研究,Whisper 中使用的模型在处理口音、背景噪音和技术术语方面表现出更好的鲁棒性。
因为语音识别的问题在于学习阶段缺乏语言多样性。因此,一个斯坦福大学研究2019 年春季在亚马逊、苹果、谷歌、IBM 和微软的系统上进行的测试显示,黑人用户的错误率几乎是白人用户的两倍:平均每百个单词有 41 个错误,而白人用户的错误率几乎是白人用户的两倍。 21 个错误。女性的错误数量平均为 30 次,而女性的错误数量为 17 次。
然而,OpenAI 系统存在以下问题:局限性:它在英语中特别有效,可以在转录中包含用户未说过的单词。这是因为它尝试转录音频,同时预测句子中的下一个单词是什么。 OpenAI 还强调不同口音和方言带来的性能差异。
耳语可用于吉图布适用于人工智能研究人员,也适用于希望在程序中使用该系统的开发人员,但需要对设置进行细化。
来源 : 科技克鲁奇