一项由语音生物识别公司资助的最新营销调查发现,大多数受访者都担心深击和语音克隆的威胁。
公司,Pindrop,举行了一个网络研讨会来讨论调查。接受调查的消费者更有可能报告对语音克隆和深击感到负面影响,但总数并没有大大降低。 Synthedia进行了研究。
可以用软件检测到语音深击,但是该技术仍在成熟,因为完全相同的AI生物识别技术领导者Piotr Kawa在另一个网络研讨会中向成员解释了EAB(欧洲生物识别协会)。
贸易出版商FoateBot.ai的首席执行官兼研究总监Pindrop网络研讨会专家Bret Kinsella表示,消费者的意见良好。
Kinsella说:“在消费者中,意识水平比我想象的要高。”意识并不是调查引起他注意的唯一见解。
对Deepfakes进行调查的消费者中有22.3%表示,他们对使用该软件感到非常积极。正确切地说,有22.3%的人问同样的问题,他们感到非常负面。
当测量师向消费者询问语音克隆作为一个概念时,大约18.8%的人看到了最大上行空间。越来越多的人对语音克隆产生了极大的负面影响 - 21.6%。
在某些受访者在语音克隆和深击中看到的积极性中,娱乐活动得到了改善。毫不奇怪,更关心的人看到了模仿和其他问题的负面可能性。
社交媒体是大多数人遇到篡改的视频和音频的地方。以降序:YouTube,Tik Tok,Instagram和Facebook。之后,这是电影和新闻出版物。
Kinsella说,这是一个问题,因为当某人分心时,很难检测到深击和配音克隆。
这与研究kawa相匹配,出版早在2021年,只有80%的研究参与者能够正确地识别其所显示的内容的真实性。在同一任务上设定的检测算法是95%的时间。随后的研究不再令人放心。
建立资源以应对概括挑战
Kawa开始了最新的EAB午餐演讲,并概述了言语综合的概述,并且AI对现场产生了影响。根据Kawa的说法,现在已经广泛使用了各种用于语音合成的商业SaaS和开源工具,使综合语音“非常容易”。
他区分了文本到语音(TTS)和语音转换,其中一个人听起来像另一个人。两者都可以用来进行音频深击攻击。
当今的DeepFake检测方法主要依赖于生物识别研究人员开发的深度学习算法,并且主要基于查找合成语音算法留下的伪像。 Kawa列出了十几个基于原始音频,基于前端的模型,算法前端和基于嵌入式的前端的模型之间的列表,以进行自我监督的学习。
根据Kawa的说法,培训它们的数据集数量也迅速增加,尤其是在过去两年中。
音频深击检测面临着概括的重大挑战。 Kawa展示了模型倾向于在检测使用与数据集相同的技术进行检测的深层爆炸方面做得很好。但是,对于那些用不同技术制造的人,性能很差。
更大的培训数据库,包括用各种技术制成的深击,以及数据增强技术可以改善检测结果,但是引入变量等变量诸如更多背景噪声之类的变量可能会使假货更加难以检测。
Kawa得出结论,对DeepFake检测中的开放问题进行了综述,包括概括和创建可以在消费级电子产品上迅速运行的模型。