合成数据可用于改善生物识别机器学习模型和AI应用程序。创新首席执行官JánLunter,但是有限制和谨慎的原因。
这些见解来自有关Lunter撰写的主题的研究论文。 “合成数据:消除生物识别偏见的真正途径”在《 2023年》杂志上发表了今天的生物识别技术。
在生物识别算法培训中,合成数据最明显的潜在优势之一是训练数据集的平衡不成比例地构成白人,导致人口统计学绩效差异或“偏见”。 Lunter写道,在性别,种族和其他少数民族中通常发现差距。
该论文说,合成数据还可以帮助解决与“冷启动”有关的问题,并且用于训练潜在指纹生物识别识别系统的数据不足。
Innovatrics成功地使用合成数据来训练OCR算法读取ID文档另一个例子是由不同国家发行的。
对合成数据的过度依赖也可能产生负面后果。随着它变得更便宜和更容易获得,组织可能会被遗弃从现实生活中放弃数据,从而引入风险,即他们的AI系统可能比现实更远。
Lunter告诉生物识别更新在电子邮件声明中。
“如果测试和验证数据是现实的并且没有偏见,我们会在培训中使用合成数据接近零风险。”
随着合成数据的现实主义的改善,Lunter还表示,它可以用于产品测试和验证。
Lunter说:“合成数据的最大优势是,它可以在整个组织中很容易共享,因此可以在多个层面上独立验证,涉及多个政党。” “实际数据通常是秘密的,因此独立方面不能轻易地测试偏见,因此,它比合成数据更不可能实现。”
Lunter建议组织考虑使用合成数据来建立一种强大的文化,能够理解与员工(包括法律团队)使用相关的风险。公司还应验证其外包的合成数据的价值,并考虑何时更合适的现实数据。
研究表明固体生物识别精度只能通过合成数据来实现,但不足以与最新技术竞争。