
马萨诸塞大学技术学院(MIT)的最新研究得出的结论是,在AI基准测试中使用的数据集中发现的标记错误,导致科学家对机器学习在现实世界中的表现得出不正确的结论。
根据Engadget的说法文章该结论于3月29日星期一发布,此前一组计算机科学家发现,大约3.4%的数据被标记了大约3.4%,从而在AI系统中引起了问题。
麻省理工学院的AI数据集研究和令人震惊的发现
7月,VentureBeat报告麻省理工学院研究人员的发现表明,著名的“ Imagenet”数据集表现出“系统注释问题”。
麻省理工学院的研究人员分析了包括ImageNet在内的数据集的10个测试组,并在ImageNet验证集中发现了超过2,900个错误。
当用作基准数据集时,事实证明,数据集中的错误在直接观察或地面真相方面具有不正确的位置。
在标题为“从Imagenet到图像分类:基准上的上下文化进度,“研究人员写道:“嘈杂的数据收集管道可能会导致由此产生的基准和它作为代理的现实世界任务之间的系统错位。”
他们补充说,对于研究的未来,开发注释管道至关重要,这些注释管道可以更好地捕获地面真理的同时保持其可扩展性。
麻省理工学院的团队还发现了Imagenet的“基准任务错位”后发现,大约20%的Imagenet照片中有多个对象,将一般准确性降至10%。
该研究的合着者Shibani Santurkar在国际机器学习会议(ICML)演讲中说,捕获ImageNet图像内容可能需要的不仅仅是单个成像网标签。
她补充说,由于标签被认为是地面真理,因此可能会导致Imagenet基准和现实世界对象识别任务之间的错位。
当研究团队纠正上述错误时,它使测试集的基准不稳定。
这是由于标记误差在较大容量模型上的分布,这将与研究的较小模型相比显着反映了错误。
Google的QuickDraw是游戏玩家“ Quick,Draw!”提交的大约5000万张图纸的集合,还显示了更大的发现。
研究人员估计,总标签中有10.12%的标签被错误标签,例如错误标签的情感 - 当亚马逊产品评论实际上是不利的时,它是不利的。
数据集标签错误:它如何真正影响现实世界?
标签错误的影响的一个显着的例子是,Google试图帮助遏制Covid-19的大流行的尝试。
去年,算法观看报告搜索引擎巨头人工智能的一个分支集中在自动图像标签上引发了争议,实验的研究人员被称为种族主义者。
在实验中,Google Vision Cloud自动标记了一个黑皮肤的人,将手持温度计为“枪”。相反,具有浅色个人的类似图像被标记为“电子设备”。
本文由技术时报拥有
由Lee Mercado撰写