面孔的数字操作可用于欺骗生物识别系统或播种错误信息,但是在多个领域,还需要与扬声器的声音协调面部动作的技术,因为Senstime研究人员Yuxin Wang在谈话中解释了欧洲生物识别协会(eab)。
他在“谈话面孔:音频到视频的面孔一代”上的演讲是EAB的一部分数字面部操纵与检测研讨会,本周为组织成员举行。
自1990年代以来,数字技术已被用于生成人们谈话的综合视频,用于虚拟助手,电信,电影和视频游戏配音和数字双胞胎等应用程序。
王说,说话的头部产量应该比音频驱动的面部重新制定的原始材料“头部运动更多”。
王回顾了允许衡量说话面部发电的脑力运动和发声之间关系的建模技术。从音频表示形式中获取的数据用于使视频中的嘴巴移动和扬声器的表达方式准确,始终如一地匹配声音。
他描述了一对管道。一个基于音频和图像编码器的产生表示形式,另一个基于单个解码器运行,另一个使用回归模型在音频功能上与中间功能(例如面部地标)结合使用,并根据中间功能呈现。王还解释了后期处理中的图像改进和背景组合。
然后,谈话涉及2D和3D面部生成中使用的方法和数据集。
已经开发了各种指标,可以应用于图像质量,音频信号与扬声器的嘴唇之间的同步,身份保存和眨眼,并概述。
在说话面部发电的挑战范围内,从对眼睛和牙齿,头部运动和情感等面部特征进行细粒度控制,到身份和身体的概括。然后考虑伪造发现和社会责任。
在第一个挑战的一个例子中,王指出,眨眼与言语机制和思维过程有关,但关系尚未得到充分理解。可以通过目标框架或高斯噪声产生眼睛闪烁。一些模型将眼动运动与整体面部表达联系起来,但是这种方法仍处于发展的早期阶段。
Sensetime研究人员说,更大,更多样化的数据集可能有助于发电。
简短地考虑了对操纵视频的检测,而DeepFake检测是活动期间其他几个演示的重点。
王认为说话的面部发电技术在不久的将来有所改善,并且实际应用会像这样扩展。