Google如何知道谁在说话，即使在嘈杂的人群中

2018-04-13

Elinore

Google非常擅长弄清楚用户在说什么，但是知道谁在说这句话吗？只看当前聪明的扬声器技术很容易被愚弄。

但是，Google可能有一个非常简单的解决方案。它的研究人员创建了一个能够挑出声音的深度学习系统。它通过在说话时看着人们的脸来做到这一点。

Google如何从人群中挑出声音

首先，研究人员训练了其系统，以表彰单独讲话的个别人。之后，他们创造了虚拟噪音 - 添加其他人来造成假人群 - 作为教导人工智能将各种音轨分为不同的部分，从而允许系统识别哪个。

结果令人惊讶。如下面的视频所示，即使他们的个人演讲重叠，AI也能够将两个站立喜剧演员的声音分开，并且仅通过看他们的脸就可以做到这一点。即使喜剧演员的脸只有部分看到，例如当它被麦克风稍微阻塞时，诀窍也有效。

Google的研究已在纸被称为“希望听鸡尾酒会”，以鸡尾酒会的效果命名，尽管周围的噪音和分心，人们仍可以专注于一个音频来源。

研究人员在博客中写道：“我们的方法在带有单个音轨的普通视频上工作，用户所需的一切就是选择他们想要听到的视频中的人的面孔，或者根据上下文选择这样的人。”邮政。

这有用吗？

研究人员仍在试图确定如何将该技术实施到Google的产品中，但这并不需要很快就可以考虑。最明显的候选人是视频服务，例如聚会群体或者二人，这可以集成此功能，以扩大一个人说话反对压倒性人群噪音时的声音。作为Engadget，对可访问性也有很大的影响笔记：AI驱动的语音跟踪可能会导致相机辅助的助听器，当他们在佩戴者面前时，声音会大声。

但是，也有隐私的影响。想象一下，这项技术足以从纽约等城市城市繁华的街道上查明特定的声音？结合安全摄像机，Google的新技术为安全性恐慌提供了另一种燃料。但是，时间会说明。

Google如何从人群中挑出声音

这有用吗？

相關貼文