如果您最近几天一直在关注新闻,那么您肯定没有错过 Google Duplex。这无疑是此次发布的最重要的公告谷歌输入/输出会议上提出的人工智能似乎实现了时间上的飞跃。
未来就是现在吗?
她现在能够用自然语言进行交流......以至于她甚至进行电话交谈的能力与一个真实的人。很难相信吗?然而,在演示中(诚然是事先录制的),在协商了日期和时间后,Google Duplex 成功自行预约了美发师。对话流畅且充满不同的语调,似乎与我们在处理合成声音时通常听到的相去甚远。
但这怎么可能(如果可能的话)?我们希望通过 Google Duplex 实现什么目标?
声音和语境的挑战
第一个难题:声音。正如谷歌所解释的,模仿自然语言和行为并不容易。因为对话也是由沉默、中断和重复的句子、各种问题、表示我们正在倾听的小“嗯嗯嗯”组成的,同时也不会忘记每个人特有的语调、口音和表达方式的变化……建模所有这一切都极其复杂。
接下来是另一个问题,即理解问题。任何使用过 Siri 这样的语音助手的人都清楚这一点:为了让 AI 理解你自己,你必须简化你的句子……不仅仅是对话,它首先是一个问题/答案,而且通常需要费力地进行。出去。人工智能确实很难跟上并考虑上下文,这是两个人之间对话的核心要素。
专心改变
在他的博文,Google 解释了其工程师如何在 Google I/O 主题演讲中得出令人惊叹的结果。第一点:为了与理发师或餐馆老板互动,Google Duplex 经过专门训练,可以识别所使用的标准句子、问题和单词、它们的含义和使用上下文。换句话说,Duplex 无法以如此精确和理解的程度讨论任何事情。
为了提供针对特定主题的自然对话,Duplex 使用循环神经网络,该网络已接受匿名电话通信组的处理。正是这些数据用于他的训练,使他能够根据给定的上下文理解所用单词的含义。
在训练过程中,人类对话者的话语通过自动语音识别技术进行筛选。然后,这些数据与来自音轨、历史记录和对话其他参数的信息一起被输入神经网络。
最终,对于每个领域(美发、修脚等),谷歌创建了一个理解模型,然后将其与每个领域学到的通用元素合并。
一种声音的两种工具
一旦人工智能理解了对其所说的话,它就必须做出回应。这就是两个文本转语音工具发挥作用的地方。第一个是连接文本到语音 (TTS) 引擎,通过合成语音读取文本。第二个也是 TTS 引擎,由 Google 去年 12 月推出的两个元素组成:Tacotron 2 和 Wavenet。示意性地说,第一个陈述句子,第二个根据情况控制语调。
最后,为了使对话更加自然,Google 集成了分歧,我们发出的那些小“嗯”声,没有意识到它表示我们仍在倾听。一些小标志和惯例可以防止对话者怀疑我们是否仍然在线。还有什么比这种小小的懒惰更人性化的呢?
经验将得到改善和丰富
唷,如果 Google Duplex 无法响应复杂的响应,它会将此情况报告给操作员,以便他们可以接管。足以避免犯错误和尴尬的情况!
但随着时间的推移,Duplex 应该会进步并扩大其能力范围。为了在新领域进行训练,系统的进度会受到监控,同时新的数据集会实时输入到系统中。一旦达到令人满意的质量水平,对人类培训师的监控就会停止,然后 Google Duplex 会自主管理这个新领域中的对话。
Google Duplex 仍处于实验阶段。尽管如此计算机网络有幸在 Google I/O 大会之前对其进行了独家测试,并报道称 Google 打算逐步部署它。目标是提供人工智能全天帮助用户,不会出现故障。这就是为什么与 Google Assistant 的集成应该会从明年夏天开始顺利完成。
考虑到法语的难度和多种细微差别,这项服务不太可能很快到达法国。无论是英语还是法语,我们都在等待能够测试此功能或看到它的实际效果才能真正相信它。
来源 :
谷歌
Opera One - AI 驱动的网络浏览器
作者:歌剧