新的皱纹解决了生物识别偏见的问题,评估标准的制定以及评估和缓解其的策略,在演讲的第三天共享EAB最近完成的关于生物识别系统人口公平的事件。
Yevgeniy Sirotin,马里兰州测试设施的SAIC身份和数据科学实验室的首席研究员兼经理(MDTF),他从他领导的团队进行的研究中提出了研究结果阿伦·维莫里(Arun Vemury)关于“生物识别系统性能的人口统计学差异:从大规模场景测试中获得的见解”。
演讲始于对场景测试的综述,这是在MDTF上执行的,并与技术测试(例如NIST执行)进行了比较。 Sirotin一开始建议,在场景测试中涉及的方法和思维可以帮助“构成问题”。
关于系统性能的公平性,由于在机场和其他环境中推出了生物识别技术,因此提出了问题,但是随着新的部署,几乎没有信息可以量化这些问题。 Soritin说,诸如MDTF举行的DHS集会等测试以参与者调查的形式收集反馈,以评估用户满意度以及算法有效性,并且通过随着时间的推移反复评估,可以对这些问题的答案产生一些见解。
MDTF论文已经探索了图像获取在系统性能中人口统计学差异以及人口统计学对面部识别系统的估计(FMR)估计的影响,比较了商业面部和Iris BioMetrics系统在不同种族和性别的绩效方差之间的差异,并研究了认知偏见的引入,并研究了人们对人类评论员的引入。
在大流行期间进行的面部生物识别系统的无人看管的高通量方案测试中,MDTF发现,图像采集系统和匹配者的许多组合符合95%的真实识别率(TIR),该测试旨在跨越所有种族群体。中位系统确认了93%的总体,最佳系统正确识别100%的参与者。大多数错误不是由算法而是在图像采集阶段犯。
在测试的第二部分中,人们在系统中保留了他们从家里带来的面部覆盖物。这表明,对于戴着口罩的人们来说,商业面部识别系统统一与黑人和其他团体没有匹配,在捕捉黑人戴着口罩的图像以及与他们匹配的情况下都有更大的差异。图像采集系统和算法的最佳性能结合未能达到戴着口罩的黑人的95%TIR目标,这表明这可能不适合高通量场景。
Sirotin指出,更改系统操作的条件可能会使以前公平的系统不公平。
他还谈到了手表列表识别方案,其成功标准截然不同,因为虚假的负面匹配可能会带来如此重大的后果。
面部识别系统造成的错误本质上与指纹或虹膜生物识别技术不同。 '但为什么?' Sirotin问。人们认识到的面孔的方式,发现与大脑某些区域的活动有关,可能会影响我们认为面部识别的方式。
与不同人口统计组成的数据集相比,该介绍会深入研究虚假匹配率对特定种族或性别的人的影响,并表明,基于数据集组成,假阳性识别的危害可能不平等。因此,平等的组内错误率也不会保护人们免受生物识别系统的不平等处理,即使达到了它。
ISO标准和评估指标
雅各布·哈塞尔格伦(Jacob Hasselgren)和约翰·霍华德同样,MDTF也谈到了ISO 19795-10标准的最新发展,用于衡量人群群体的绩效。研究人员是该标准的编辑,并为ISO技术报告做出了有关“人口统计学因素在生物识别系统绩效中的差异影响”的贡献,该报告于今年1月批准出版。
ISO 19795系列为生物识别系统测试和评估提供了一个框架,目前正在起草的第10部分适用于人群组的性能变化。预计将在今年夏天完成初稿,预计最终版本将于2023年或2024年发布。
演示文稿详细介绍了用于评估不同组绩效的生物识别系统的范围,当前挑战和统计数据。创建标准的其他挑战包括“黑人”或“亚洲”之类的人口类别的局限性,这些类别可以描述具有高度多样化的种族背景的人,以及将肤色广泛的人组合在一起,甚至如何判断统计平等。
Tiago de Freitas Pereira的IDIAP研究所探索了“如何评估生物识别管道中不同水平的人口差异”。
已经使用了各种评估人口统计学差异的方法,包括曲线下的区域(AUC)测量区域,但Pereira指出,这些方法对不同人口统计学的FMR采取了不同的策略,并且可能隐藏了一些偏见。相反,他提出了公平差异。'
他说,这与“不平等程度”相似由帕特里克·格罗特(Patrick Grother)解释在上一个EAB网络研讨会会话中。
Pereira提出了一种“修补”评分功能的策略,无论是在测试或培训算法时及其优势和缺点。
文章主题
准确性|生物识别识别|生物识别技术|生物识别研究|人口公平|EAB|欧洲生物识别协会|面部识别|IDIAP|ISO标准|马里兰州测试设施(MDTF)|掩模检测|SAIC