您是否曾在喧闹的聚会上给朋友打电话?如果是这样,您可能知道在喧嚣中很难理解您的通讯员。原因很简单:与人类不同,麦克风很少区分不同的声源,并重新传输它听到的所有内容。
这种现象可能很快就会消失。谷歌研究人员开发出了能够隔离声音的人工智能,结果相当令人印象深刻。
多个音轨和视频
为了工作,谷歌使用一种现在经典的技术来训练人工智能深度学习。其目标:从单个录音中区分不同的声源。该软件分析聆听并根据需要将其划分为尽可能多的音轨。其特殊性:图像分析。人工智能观察人嘴的运动,识别声音的来源,并创建相关的轨迹。这样就可以完全消除视频中的背景噪音。
在辩论的背景下,结果更加令人震惊。两个人同时说话,但你可以将两个主角之一完全静音,然后再分别听他们说话。谷歌解释说,我们分析了 100,000 个视频,得出了 2,000 小时的视频,其中所有背景噪音都被消除了。谷歌已经上线了四个例子在他致力于研究的博客上,我们注意到人工智能可以选择一个人,并且只听他们的声音。
用途不同
谷歌解释说,借助人工智能,它可以改进 YouTube 视频的自动字幕,一旦掌声或外部噪音添加到文字中,这些字幕就会不幸地陷入困境。公司发布了视频说明了它的技术,而且字幕一旦剪掉声音确实更能代表现实。
最后,该系统可以直接让用户受益。如果我们当然想象谷歌将其添加到环聊或者双人组为了提高视频通话的质量,我们还可以假设未来版本的扬声器谷歌首页她是否也能从中受益呢?尽管如此,通过能够隔离房间中的每个人,检测诸如«好的谷歌»可以改进。
目前,谷歌表示仍在考虑其技术的不同可能用途。