Adobe研究人员与俄勒冈州立大学的博士生合作创建了一种名为Fairdedup的新AI培训方法。这种方法旨在通过通过称为公平重复数据删除的过程来完善培训数据集来减轻AI系统固有的社会偏见。

关于俄勒冈州立大学学生,Adobe研究人员的Fairdedup
Fairdedup旨在应对从Internet提出的数据集中的偏见挑战。新技术可确保对AI系统进行多样化和代表性数据的培训,从而提高准确性,同时促进公平性。
由大学工程学院的埃里克·塞利曼(Eric Slyman)领导的研究团队解释说,费尔德普(Fairdedup)利用修剪过程选择性地完善图像标题的数据集,以确保仅准确代表整个数据集的数据子集用于培训。
该方法通过减少冗余数据并通过结合人类环境定义的各种维度来简化培训过程。
研究人员指出,来自互联网的数据集经常反映出社会偏见。当这些偏见嵌入了受过训练的AI模型中时,它们可以增强不公平的意识形态和行为。
因此,了解重复数据删除对偏见流行率的影响可以减轻不良后果。例如,它可以防止在被要求描绘首席执行官,医生或其他角色时,AI系统默认显示仅显示白人的图像的情况,从而无法按预期表示多样性。
这就解释了为什么Fairdedup嵌入了修剪以简化从Web收集的图像标题的数据集。修剪涉及选择代表整个数据集的数据子集。当以内容感知的方式完成时,它可以就保留哪些数据段并丢弃哪些数据段的明智决定。
根据苏曼(Slyman)的说法,费尔德普(Fairdedup)消除了冗余数据,同时集成了可控的,人类定义的多样性维度以减轻偏见。这种方法不仅可以确保具有成本效益和准确的AI培训,而且还可以促进公平。
解决AI系统中的偏见
塞莱曼(Slyman)强调,AI系统可以通过解决数据集修剪期间的偏见来维护社会正义。这种方法旨在不将单一的公平概念强加于AI,而是要建立一个框架,以鼓励在部署AI的特定情况和用户群中公平行为。
斯莱曼指出,团队允许个人在自己的设置中定义公平性,而不是让互联网或大规模数据集决定标准。
“通过解决数据集修剪期间的偏见,我们可以创建更社交的AI系统,” Slyman在新闻稿中说。 “我们的工作并不迫使AI遵循我们自己的公平概念,而是在某些设置和用户群中在其部署的某些设置和用户群中进行上下文时的行动,从而创造了一种推动AI的途径。”
研究小组的发现是提出在IEEE/CVF计算机视觉和模式识别会议上。
