新研究从数据安全公司Upguard中表明,美国政府AI承包商的大规模敏感文件数据库在互联网上曝光,直到上个月末。在博客上的帖子中,Upguard分解了如何Veritone AI暴露了550GB的内部和客户数据,包括音频,视频和生物识别图像媒体,员工PII,警察局摄像机镜头,FOIA请求和相关文档,员工证书,具有授权令牌的系统日志等等。
暴露的集中数据集包含有关Veritone资源和用户的敏感信息,包括员工的全名,用户名和电子邮件地址。但是政府人员数据的暴露特别关注。 “内部凭据也出现在暴露的日志中,例如应用令牌,在某些情况下是纯文本密码。未经授权使用这些凭证将授予威胁行为者所持有的曝光帐户的任何访问权限,可能会将其他敏感数据暴露于恶意的第三方。”
至少有一些暴露的个人数据被用来训练AI系统,有一些观察者询问机器学习算法是否吹捧他们的安全性真正的算法实际上是在创建脆弱的数据蜜饯的母亲。
Upguard说:“我们已经习惯了称为'人工智能'的内容依赖于具有复杂算法和详细数据标记的巨大数据集的串联片段。” “因为AI技术通常需要大量的数据库,这些数据库充满了他们正在分析的任何信息,因此数据暴露的可能性和影响迅速增加。”它指出:“ Veritone为政府和警察机构提供的很大一部分服务涉及自动编辑敏感信息从文档中,分析面部识别数据(称为识别可疑嫌疑人),以及处理音频和视频监视数据以查找洞察力,关键字和图像类型。”它还指出,Veritone为包括法律,能源和娱乐在内的各种行业提供了AI服务 - 这意味着潜力数据泄露无处不在。
Upguard发现了Veritone的第一个暴露于托管在微软3月23日,Azure政府云。它包含4.64亿个文件。第二天,发现了第二台服务器,其中包含12亿个文档。根据博客,“这些服务器不需要或要求任何凭据,而是向互联网上的任何人提供匿名访问。”
在意识到违规之后,Veritone于3月30日确保了弹性服务器。数据不再公开可用。
在这种情况下,故障不在于Elasticsearch。该软件是旨在快速搜索大型数据集的开源搜索和分析引擎,可以配置为需要身份验证。但是,Veritone的服务器未被配置为这样 - 一种削弱了其他安全措施并使政府数据暴露的监督。 Elasticsearch对配置用于身份验证的软件的必要性很透明。 2020年的博客概述了用户可以采取的简单步骤保护他们的数据来自违规。
在Axios的访谈,网络研究的Upguard副总裁Greg Pollock表示,微软也很可能已经脱颖而出。 Pollock说:“微软正在为政府云作为服务;他们可能不参与该数据库的管理。”
如果责任在于Veritone未能正确配置ElasticSearch服务器,那么Upguard的评估清楚地暗示着“诸如旋转弹性服务器之类的操作任务应该具有控制权,以确保服务器无法公开访问”滥用数据。尽管如此,鉴于Veritone信息的数量和敏感性,违规行为可能对如何收集,存储和确保AI培训数据库具有重大影响。