Google正在推出一项完全由神经网络驱动的端到端的端口演讲识别技术,该技术在其Gboard Virtual键盘应用程序中用于语音输入。
在博客文章,Google描述了一篇最近的论文,该论文介绍了一种新模型,该模型训练了经常性的神经网络传感器(RNN-T)紧凑,足以在智能手机上运行。根据“移动设备的端到端语音识别”,端到端模型直接基于语音输入来预测字符输出,并且是在边缘设备上运行语音识别的良好候选者。 Google研究团队在实验中发现,RNN-T方法在潜伏期和准确性方面优于基于连接派时间分类(CTC)的常规模型。
该博客说,传统的语音识别系统从音频段,将音素连接到单词的模型以及分析给定短语的可能性的语言模型中识别了音素(声音单元)。研究人员开始尝试通过训练2014年左右的单个神经网络直接从输入波形到输出句子,这导致了“基于注意力”和“听 - 触觉”模型的发展。尽管这些系统具有有希望的精度,但它们通常需要完整分析整个输入序列,因此不能支持实时转录。还开发了CTC技术,从而降低了语音识别系统的延迟。
“事实证明,这是创建最新版本中采用的RNN-T体系结构的重要一步,可以看作是CTC的概括,”该公司演讲团队的Google研究员Johan Schalkwyk写道。
RNN-T模型使用一个反馈循环将字符逐一输出,该反馈循环将预测的符号(通常字母)送回模型以预测下一个。早期版本降低了单词错误率,但培训在计算密集程度上。研究人员开发了一种平行的实现,可以在Google的TPU V2高性能云硬件中有效地进行有效运行,该硬件加速了培训。
传统语音识别引擎使用的搜索图仍然太大而无法在移动设备上运行,但是,尽管具有复杂的解码技术,但Google生产模型几乎是2GB。研究人员通过单个神经网络搜索梁搜索了一种解码方法,通过450MB模型实现了相同的精度,然后通过参数量化和混合核技术进一步降低了尺寸,并最终将最终模型降低到80MB。
新的Gboard语音识别器最初将启动到使用美国英语的像素手机,但是研究人员乐观地认为,可以通过专门的硬件和算法改进可以添加更多的语言和应用程序。
语法推出了一条新的线边缘设备的语音处理器在今年早些时候的MWC 2019上,声音和语音识别市场预计值得69亿美元到2025年。