上升深击音频技术在各个领域都有重大威胁,例如个人隐私,政治操纵和国家安全。为了解决这些风险,基于多伦多克里克健康通过其研究部门Klick Labs,开发了一种生物识别方法,以区分人类发出的音频剪辑和人工智能产生的音频剪辑。该方法涉及分析人声生物标志物,这是可以揭示有关说话者健康或生理学信息的声音中存在的特征。
团队主张目前已经确定了12,000个生物标志物,但目前依赖于五个关键特征,包括语音的长度和变化,微观和大型摩托车的速度以及说话与暂停所花费的时间的总比例。
“我们的发现突出了使用声乐生物标志物作为标记深击的新方法,因为它们缺乏真正内容中固有的生命的明显迹象,” Klick Labs的高级副总裁兼研究研究员Yan Fossat说。
由Yan Fossat领导的研究团队进行了学习涉及49位来自不同背景的参与者,每个参与者都有各种口音。对这些收集的语音样品进行了培训,以创建合成音频,然后对这些音频进行分析。
研究结果表明,机器学习模型能够以约80%的精度区分真实和深击音频。
今年早些时候,Pindrop Security合作用语音克隆的公司呼吸器来促进生成AI的道德使用。 Pindrop的生物识别技术分析了每个音频流,以验证它是否源自真实的人类声音。该公司声称其软件可以检测到合成声音99%的精度。