Google非常擅长弄清楚用户在说什么,但是知道谁在说这句话吗?只看当前聪明的扬声器技术很容易被愚弄。
但是,Google可能有一个非常简单的解决方案。它的研究人员创建了一个能够挑出声音的深度学习系统。它通过在说话时看着人们的脸来做到这一点。
Google如何从人群中挑出声音
首先,研究人员训练了其系统,以表彰单独讲话的个别人。之后,他们创造了虚拟噪音 - 添加其他人来造成假人群 - 作为教导人工智能将各种音轨分为不同的部分,从而允许系统识别哪个。
结果令人惊讶。如下面的视频所示,即使他们的个人演讲重叠,AI也能够将两个站立喜剧演员的声音分开,并且仅通过看他们的脸就可以做到这一点。即使喜剧演员的脸只有部分看到,例如当它被麦克风稍微阻塞时,诀窍也有效。
Google的研究已在纸被称为“希望听鸡尾酒会”,以鸡尾酒会的效果命名,尽管周围的噪音和分心,人们仍可以专注于一个音频来源。
研究人员在博客中写道:“我们的方法在带有单个音轨的普通视频上工作,用户所需的一切就是选择他们想要听到的视频中的人的面孔,或者根据上下文选择这样的人。”邮政。
这有用吗?
研究人员仍在试图确定如何将该技术实施到Google的产品中,但这并不需要很快就可以考虑。最明显的候选人是视频服务,例如聚会群体或者二人,这可以集成此功能,以扩大一个人说话反对压倒性人群噪音时的声音。作为Engadget,对可访问性也有很大的影响笔记:AI驱动的语音跟踪可能会导致相机辅助的助听器,当他们在佩戴者面前时,声音会大声。
但是,也有隐私的影响。想象一下,这项技术足以从纽约等城市城市繁华的街道上查明特定的声音?结合安全摄像机,Google的新技术为安全性恐慌提供了另一种燃料。但是,时间会说明。