研究人员和激进主义者说,从手动功能工程到增强面部识别的神经网络的转变也创造了面部数据的市场,而无需监管或监督,导致了许多问题。
“研究人员变得疯狂:我们的面孔如何为生物识别监视技术的兴起提供动力。”简历眼花azz乱创始人亚当·哈维(Adam Harvey)。哈维也是each.ai,一种在线工具,可以告诉人们他们的图像是否已用于培训面部识别模型。
演讲由道德,社会与计算中心(ESC)在密歇根大学。
哈维(Harvey)对面部识别和监视的兴趣源于他在纽约市的摄影师的经历,就像相机开始在蜂窝电话中从未有过摄影。他指出,这与9/11后的兴趣上升和对安全应用程序生物识别研究的资金的兴趣和资金相吻合。
面部识别大部分仅限于受控的捕获场景,算法还尚未足够复杂,可以进行广泛应用。
Harvey说:“在线发布包含生物识别信息的数据盈余以及对新生物识别技术的需求日益增长的需求”作为数据集的来源。
基于卷积神经网络的面部生物识别算法的出现产生了对面部数据的前所未有的需求,Harvey解释说,互联网提供了供应链。
他认为,野外标记的面孔是一个先例设定的数据集,这不仅是因为它提供了允许神经网络可以自动化训练算法任务的功能设计部分的数据。据哈维说,这也从道德上树立了先例。
随后开发了各种数据集,其中许多数据集是“在野外”作为标题的一部分。
他说,一个研究论文的数据集将导致其他数据集,其中一些数据集不容易获得。
Duke MTMC数据集脱离了数据收集过程,“最终成为世界上最受欢迎,最广泛使用的多目标多型摄像机数据集”,并带有大量引用。
许多其他数据集遵循相同的模型,用于捕获CCTV图像以进行研究。
哈维说:“它不是被称为'CCTV'?闭路电视吗?现在它在互联网上。”
哈维说,这些数据库很少受到同意的要求,即使是这样,研究人员仍然包括尚未授予该数据的人的图像。
他回顾了诸如Megaface之类的数据集的持续开发,该数据集将互联网搭化的方法扩展到了672,000个面孔。
到2017年,Google和Facebook的数据集分别为大约8和1000万面孔。
哈维(Harvey)分享了一张幻灯片,可视化杜克大学MTMC数据集的扩散向世界各地的其他研究人员,用于工业,学术和军事用途。
反弹构建
当杜克时悄悄地将数据集离线拉动哈维说,这是一个默契的罪恶感。
CVPR 2019旨在基于Duke MTMC数据集的使用,被取消了“因为数据集现在处于法律上的困境”。 MTMC被中国收集的Reid取代允许举行会议。
哈维说,即使在用于商业目的的情况下,基于创意共享许可证的数据集也具有一些法律保护,这实际上违反了CC限制。它们通常也不归因于他们所使用的许可证所要求的。
哈维发现,这些数据集中最常见的照片来源是婚礼。
哈维警告说,其中一些可能发生在伊利诺伊州,在这种情况下,像大型脸这样的数据集可能违反了Bipa。来自加利福尼亚的儿童的存在可能会增加COPPA责任。
哈维确定了趋势。他说:“这只是使用同样的旧肮脏剧本,以获取其他人的数据,然后将其重新用于不同的东西,并用于其他目的。” “而且您最终得到了危险的,不准确的,应该是坦率地,非法的,这是危险的,不准确的。”
Harvey表示,较少偏见和更高准确性的数据集仍会产生“功率不对称”,这是无法接受的。
在他的最新项目中,哈维(Harvey)使用合成数据和3D打印对象来创建训练数据集来检测集群弹药,而群集弹药的图像在Internet上无法大规模可用。
与会者询问了相当于其他渴望数据的研究领域的等效物,如何使公众了解他们对面部识别和数据共享应该有的关注程度,以及是否有意义地在线共享任何东西。
哈维(Harvey)说,社区需要帮助律师获得更好的许可,“我们可能需要进行一些集体诉讼。”