著名的位置数据经纪人 Gravy Analytics 透露,一次重大数据泄露可能会通过去匿名化暴露数百万人的精确位置信息。此次泄露是使用“盗用密钥”访问 Gravy Analytics 的 Amazon Web Services (AWS) 云存储环境来执行的。
Gravy Analytics 的母公司是总部位于挪威的 Unacast,披露的上周,根据法律要求,向挪威数据保护局 (NDPA) 提出了违规行为。 Unacast 表示,它“发现对其 AWS 云存储环境的未经授权的访问。未经授权的人获得了一些文件,但这些文件的内容以及是否包含个人数据仍在调查中。 Gravy Analytics 目前正在通知 Datatilsynet,以引起您的注意,因为有关此事件的猜测已经开始出现在社交媒体和新闻媒体上。”
“调查仍在进行中,但未经授权的人似乎通过盗用的访问密钥获得了对 Gravy Analytics AWS 环境的访问权限。 Gravy Analytics 通过未经授权人员的沟通得知了这一事件,”该公司告诉 NDPA。
根据到404媒体“黑客表示,他们窃取了大量数据,包括客户名单、更广泛行业的信息,甚至从智能手机中收集的显示人们精确行踪的位置数据,并威胁要公开发布这些数据。”
此次泄露凸显了重大的隐私问题,因为暴露的数据可能会导致个人去匿名化,从而使恶意行为者能够跟踪个人活动和行为。
“这可能会令人尴尬并且侵犯隐私。对于某些人来说,它可以用来影响和操纵他们进行欺诈或勒索,”NDPA 的托比亚斯·朱丁 (Tobias Judin) 说。
Gravy Analytics 黑客事件暴露个人位置数据凸显了数据经纪生态系统固有的漏洞,在该生态系统中,大量个人信息在没有充分监督或用户同意的情况下被收集、存储和货币化。
此次数据泄露暴露了与广告生态系统内的实时竞价 (RTB) 流程相关的风险,该流程允许数据经纪人在广告投放期间获取位置信息。在 Gravy Analytics 案例中,通过 RTB 流程收集的敏感位置数据被暴露,这表明此类系统如何损害用户隐私。
此次泄露凸显了对强有力的网络安全措施的迫切需要,特别是在保护敏感个人数据方面。该事件强调了数据收集透明度的重要性以及获得明确用户同意的必要性,特别是在处理位置数据等敏感信息时。应告知用户他们的数据是如何收集、存储和使用的,使他们能够就自己的隐私做出明智的决定。
泄露的数据包括从各种智能手机应用程序收集的敏感位置记录,揭示了个人在白宫、军事基地和其他敏感地点等地的活动情况。俄罗斯论坛上泄露的小数据样本包括超过 3000 万个位置点,表明此次泄露的范围广泛。
涉及 Gravy Analytics 的数据泄露事件表明,Candy Crush、Tinder 和 MyFitnessPal 等流行应用程序在未经用户明确同意的情况下被利用,通过 RTB 流程收集用户的位置数据。此数据收集是在应用程序开发人员没有直接参与或意识到的情况下进行的。
实时竞价是一种程序化广告技术,有助于向广告商快速拍卖数字广告空间。当用户访问网站或打开应用程序时,他们的数据(包括位置、浏览行为和人口统计详细信息)将传输到广告交易平台。然后,广告商实时出价,向该特定用户展示他们的广告,出价最高者的广告几乎立即出现。
虽然 RTB 可以实现高度针对性的广告,但它也引起了严重的隐私问题。该过程涉及与广告商和第三方共享大量用户数据,这些数据通常包括敏感信息,例如精确位置和设备标识符。许多用户不知道他们的数据正在被拍卖,因为同意往往隐藏在很少人阅读的冗长条款和条件中。此外,当与其他数据集结合时,即使是匿名数据也可以去匿名化,从而使个人面临潜在的跟踪和监视。
RTB 还有助于跨设备和平台持续跟踪用户,创建详细的行为档案。这种形式的监控广告引起了人们对在线隐私受到侵蚀的担忧。此外,RTB 固有的广泛数据共享增加了数据泄露的风险。如果 RTB 生态系统中的一个实体受到损害,数百万用户的数据可能会遭到泄露。这些做法常常与隐私法相冲突,例如欧洲的《通用数据保护条例》(GDPR) 和美国的《加州消费者隐私法》,这些法律要求数据收集的透明度和明确同意。
当已去除直接标识符(例如姓名或电子邮件地址)的数据与其他数据集组合以重新识别个人时,就会发生去匿名化。此过程依赖于位置、性别、出生日期或设备 ID 等准标识符,当与其他信息交叉引用时,这些准标识符可以唯一地识别人员。例如,出生日期、性别和邮政编码的组合足以查明个人,即使在匿名数据集中也是如此。
基于位置的重新识别是一种常见方法,因为精确的 GPS 数据通常会揭示独特的运动模式。一个人的家庭住址(晚上的位置)和工作场所(白天的位置)可以很容易地识别出他们的身份。行为数据,例如购物习惯或浏览历史记录,也构成风险。该数据中的模式可以与其他数据集中的可识别属性相关联,将匿名记录链接回特定个人。
有一些值得注意的去匿名化案例。 2008 年,Netflix 发布了一个匿名的电影评分数据集,用于改进其推荐算法的竞赛。研究人员能够通过交叉引用 Netflix 数据集和公开的 IMDb 评论来重新识别用户,从而暴露私人偏好。另一个例子发生在 1997 年,当时 Latanya Sweeney 通过将匿名医疗数据集与使用邮政编码、出生日期和性别等属性的选民登记记录进行比较,重新识别了马萨诸塞州州长。
2013 年,麻省理工学院的研究人员演示了如何重新识别匿名手机位置数据。他们发现,只需四个时空点(特定时间和地点)就足以唯一识别数据集中 95% 的个体。
同样,在 2018 年剑桥分析丑闻期间,来自 Facebook 的数据被去匿名化,以建立详细的选民心理档案,展示行为模式如何用于侵入性定位。 COVID-19 大流行还暴露了匿名数据的漏洞,因为为公共卫生研究共享的移动数据仍然可以通过模式分析来识别个人的活动。
同样,比利时数据保护局等监管机构也批评 RTB 框架违反隐私法规,正如 IAB Europe 的 2022 年 GDPR 违规裁决所示。
2022年,DPA裁定IAB Europe因其“透明度和同意框架”(TCF)系统违反了GDPR,发现包含用户偏好的TCF字符串构成个人数据,并且IAB Europe充当了数据控制者,这意味着他们负责管理这些数据,导致人们担心过度的用户跟踪和不合规的同意机制。该决定后来得到了欧洲法院的维持,进一步巩固了 IAB Europe 在 GDPR 下对 TCF 系统的责任。
去匿名化对隐私具有深远的影响,因为重新识别的数据可能会暴露敏感信息和个人行为。这种暴露可能会导致歧视、剥削或其他形式的伤害。当匿名数据遭到泄露时,组织还面临法律和声誉风险,特别是如果重新识别违反了 GDPR 等隐私法。此外,使用去匿名数据进行分析、定向广告或监视进一步削弱了公众的信任。
为了减轻这些风险,组织通常采用差异隐私等方法,这种方法会向数据添加统计噪声,以防止单个记录被隔离,同时保留整体模式。
另一种方法是聚合数据而不是共享原始记录,同时实施严格的访问控制来限制谁可以查看敏感信息。透明度也至关重要,确保用户了解他们的数据是如何收集、匿名和潜在使用的。然而,随着数据集的增长和分析工具变得更加复杂,去匿名化的风险仍然是一个持续的挑战。
为了解决这些问题,平台应优先考虑透明度,并为用户提供有关 RTB 实践的清晰信息。用户应该有可访问的选项来选择退出定向广告。政府必须更严格地执行隐私法规以确保合规性。
此外,隐私保护技术(例如设备上的广告定位)可以最大限度地减少数据暴露,同时仍然支持广告需求。教育用户管理应用程序权限和使用广告拦截工具也有助于降低与 RTB 相关的风险。
虽然 RTB 提供了广告的效率和精确度,但它对用户隐私的影响需要仔细审查和系统性变革,以平衡技术能力与道德实践。
一些应用程序开发商和公司否认了解或参与 Gravy Analytics。 Tinder 表示,它与 Gravy Analytics 没有任何关系,也没有证据表明数据是从其应用程序中获取的。同样,流行的祈祷应用程序穆斯林 Pro 也表示不了解 Gravy 的活动。
RTB 的普遍性使得应用程序开发人员很难完全控制甚至了解用户数据在广告生态系统中的利用方式。我们鼓励用户保持警惕,限制应用程序权限并阻止广告,以减少此类数据收集行为的暴露。
联邦贸易委员会一直在积极审查数据经纪人处理敏感信息的情况。 12 月,联邦贸易委员会行动指控 Gravy Analytics 及其子公司 Venntel 非法向敏感站点出售跟踪消费者的敏感位置数据,包括与健康相关的地点和礼拜场所。
为了降低风险,组织必须实施严格的访问控制、定期审核数据收集实践并确保遵守数据保护法规。此外,迫切需要提高数据收集方法的透明度并获得明确的用户同意,特别是在处理位置数据等敏感信息时。