IBM宣布启动了专门为进一步研究公司和更广泛的人工智能社区来进一步研究并最终开发公平,准确的面部识别算法的新数据集。该公告是在博客文章由IBM研究员和AI Tech博士的经理约翰·史密斯(John Smith)博士解释了这项技术优势的数据驱动的深度学习方法也可能是一个弱点,而无需足够强大和多样化的数据集。
史密斯告诉史密斯,新的“面部多样性”生物识别数据集由100万个公开图像组成,根据行业文献中的10个顶级编码方案注释。生物识别更新在面试中。 IBM宣布打算创建一个百万图像数据集为了帮助了解培训数据多样性如何影响去年6月的算法结果。从那时起,人们一直在关注面部生物识别系统的公平性,或者在匹配不同群体之间表现出的准确性方面的差异。麻省理工学院研究员Joy Buolamwini在达沃斯的世界经济论坛上说,IBM面部识别算法在识别有深色皮肤的女性方面的改善表明问题是优先级的问题。
据史密斯说,由于面部多样性,IBM证明了其优先事项。
他说:“我们一直非常关注确保我们的服务的担忧,包括视觉识别和面部识别是公平而准确的。” “在这里确实有一系列的努力,但是,随着数据集的发布,我们将其提高到了另一个层次。这也是我们努力使围绕这个重要主题的更大的研究社区激发了一项努力。”
面孔的多样性包括YFCC-100M创意共享图像集中的图像,公司分析显示,与以前的集合相比,该图像提供了更平衡的分布和更广泛的面部图像覆盖范围。图像通过编码方案进行了增强,这些编码方案主要包括诸如颅面特征的客观度量,以及一些更主观的注释,例如人类对年龄和性别的预测。
史密斯解释说:“这些是我们在科学文献中确定的一些最强的编码方案,所有这些方案都引用了工作,但更深入地研究了重要的面部多样性方面。”
启动新数据集为AI研究人员提供了一个“跳跃点”,用于根据对人脸的表征最重要的元素评估数据质量。
“关键问题是关于我们使用的数据,”史密斯告诉生物识别更新。 “我们如何确保面部图像数据足够多样化?我们如何确保从该数据训练的系统以某种方式反映了我们在世界上看到的面孔的分布?我们如何确保它们没有盲点?”
IBM与Buolamwini和其他研究人员互动,试图了解一段时间以来与数据集相关的问题。史密斯说,超越了对问题的认识,创建工具以了解有关如何解决该问题的更多信息是面孔多样性的重要性。
“有多种方式很明显,当今正在实践中的技术正在努力公平而准确。也就是说,我认为到目前为止,还没有一致的,有系统的努力来解决问题。这更多是关于指出问题。因此,真正促使我们促使我们在面孔中创造了这种特定的数据,这不是一个行动。
史密斯认为,确定如何衡量面部多样性,确保覆盖范围的平衡,然后学习改进系统是培训公平系统过程中必要的早期步骤。为面部识别算法背后的科学问题提供更好的答案,最终将产生更公平,更准确的系统。
史密斯警告说:“有了这十个编码方案,这是一个很好的开始,但还不完整。” “这就是为什么我们觉得我们有很多机会可以在这方面以及更广泛的研究社区建立更多的机会,这就是为什么我们公开发布此书的原因。”