现实世界中生物识别训练数据集的局限性,包括通过不平衡的人口统计学来引入偏见,已经建立了良好的局限性。合成培训数据提供了希望,但有其自身的局限性。挪威生物识别实验室提出了一种避免这些局限性的新方法年度研讨会2024,由EAB本月初主持。
马德里自治大学的Pietro Melzi提出了Gandiffface模型,该模型生成了合成面孔,目的是减轻培训数据中的人口统计学偏见。研究项目是UAM之间的合作Secunet和Hochschule Darmstadt应用科学大学。
使用生成数据,除了在隐私,可用性和法规合规性方面的优势外,研究人员还可以控制数据集中样品的属性。但是,生成的对抗网络(GAN)提供了包含训练数据中发现的偏见的合成数据集,并且可能无法提供足够的类内变异来训练有效的面部识别。
扩散模型产生了多种图像,因此Melzi和他的同事提出了Gandiffface模型,该模型结合了两种模型。它使用IDIAP研究人员先前提出的潜在空间操纵方法。梅尔兹(Melzi)和公司使用Dreambooth将新单词与特定主题绑定到微调文本对图像模型。
Melzi与仅由GAN生成的图像组成的数据集相比,描述了该模型开发的细节,以及如何减少配对分数分布的平均值,这使其与由照片组成的数据集更相似。
梅尔兹指出,在传统上用于训练面部识别的数据集中,人口统计分布偏向高加索人,但图像质量也从一个人群到另一个人口差异。
通过使用使用Gandiffface创建的数据集,Melzi和他的团队能够为不同的人群组微调Arcface模型的虚假匹配率(FMR)。
首届FRCSYN挑战结果
这FRCSYN挑战于WACV 2024启动,以询问合成数据是否可以替代面部识别训练的真实数据,是否可以减轻面部生物识别技术的已知限制以及其限制是什么。
Gandiffface是进入挑战的15个团队可获得的四个数据库之一。大多数涉及学术机构,无论是自己还是合作,但是方面也出现在前八名中。
他们设置了几个子任务,并且通过减去与平均准确性的标准偏差来衡量的准确性和公平性之间的权衡。
获胜的团队能够使用合成数据来减少偏见,但是更多的参与者能够通过真实和合成数据的结合来减轻偏见。同样,实际数据和合成数据的组合也产生了更高的总体精度得分。
Melzi说,这显示了合成数据与实际数据结合使用时,合成数据的有效性。
第二版的FRCSYN挑战将在今年晚些时候再次举行。
文章主题
生物特征偏置|生物识别技术|生物识别研究|人口公平|EAB|EAB 2024|欧洲生物识别协会|FRCSYN挑战|Secunet|合成数据|合成面