科学家们建立了噪声耳机,这些耳机实时过滤了特定类型的声音(例如鸟鸣叫或汽车喇叭),这要归功于深度学习的人工智能(AI)算法。
该系统是华盛顿大学配音“语义听力”的研究人员,播放了耳机捕获到智能手机的所有声音,在让佩戴者挑选他们想听到的特定类型的音频之前,它会取消所有内容。他们在10月29日在《杂志》上发表的论文中描述了原色IACM数字图书馆。
一旦将声音流到了应用程序中,软件中嵌入的深度学习算法意味着他们可以使用语音命令或应用程序本身来选择20种声音之间的允许。这些包括警笛,婴儿哭泣,真空吸尘器和鸟芯片等。据论文说,他们之所以选择这20个类别,是因为他们认为人类可以以合理的准确性来区分它们。整个过程的时间延迟不到一秒钟。
“想象一下,能够在公园里听鸟儿的声音,而不会听到其他徒步旅行者的chat不休,或者能够在繁忙的街道上阻止交通噪音,同时仍然能够听到紧急警报器和鸣叫声或能够听到卧室中的闹钟,但无法听到交通噪音,但无法听到交通噪音的声音Syam华盛顿大学计算机科学与工程系的助理教授在一封电子邮件中告诉Live Science。
相关链接:最好的跑步耳机2023:加强锻炼
YouTube
深度学习是一种机器学习形式,其中系统以模拟人脑学习方式的方式培训了数据。
Gollakota说,深度学习算法的设计具有挑战性,因为它需要了解环境中的不同声音,将目标声音与干扰声音分开,并保留目标声音的方向提示。该算法还需要所有这些仅在几毫秒内发生,以免造成佩戴者的滞后。
他的团队首先使用Audioset的录音,这是一个广泛使用的声音录音数据库,并将其与来自四个单独的音频数据库的其他数据相结合。团队将这些条目标记为手动标记,然后将它们合并为训练第一个神经网络。
但是,该神经网络仅在样本录音中受过训练,而不是现实世界中的声音,这更混乱,更难处理。因此,团队创建了第二个神经网络,以概括其最终部署的算法。其中包括超过40个小时的环境背景噪音,您在室内和室外空间中遇到的一般声音,以及45多人戴着各种麦克风的录音。
他们使用两个数据集的组合来训练第二个神经网络,因此它可以区分现实世界中声音的目标类别,而不管用户戴着哪种耳机或头部的形状。差异,甚至很小的差异都可能影响耳机接收声音的方式。
研究人员计划将来将这项技术商业化,并找到一种构建带有软件和硬件的耳机以在设备上执行AI处理的方法。
Gollakota继续说:“语义听力是创造智能听觉物的第一步,可以增强人类具有增强甚至超人听力的能力。”
“在行业中,我们看到了用于集成到可穿戴设备中的深度学习设计的定制芯片。因此,我们使用的技术很可能会集成到我们正在使用的耳机和耳塞中。”