新研究從數據安全公司Upguard中表明,美國政府AI承包商的大規模敏感文件數據庫在互聯網上曝光,直到上個月末。在博客上的帖子中,Upguard分解瞭如何Veritone AI暴露了550GB的內部和客戶數據,包括音頻,視頻和生物識別圖像媒體,員工PII,警察局攝像機鏡頭,FOIA請求和相關文檔,員工證書,具有授權令牌的系統日誌等等。
暴露的集中數據集包含有關Veritone資源和用戶的敏感信息,包括員工的全名,用戶名和電子郵件地址。但是政府人員數據的暴露特別關注。 “內部憑據也出現在暴露的日誌中,例如應用令牌,在某些情況下是純文本密碼。未經授權使用這些憑證將授予威脅行為者所持有的曝光帳戶的任何訪問權限,可能會將其他敏感數據暴露於惡意的第三方。 ”
至少有一些暴露的個人數據被用來訓練AI系統,有一些觀察者詢問機器學習算法是否吹捧他們的安全性真正的算法實際上是在創建脆弱的數據蜜餞的母親。
Upguard說:“我們已經習慣了稱為'人工智能'的內容依賴於具有復雜算法和詳細數據標記的巨大數據集的串聯片段。” “因為AI技術通常需要大量的數據庫,這些數據庫充滿了他們正在分析的任何信息,因此數據暴露的可能性和影響迅速增加。”它指出:“ Veritone為政府和警察機構提供的很大一部分服務涉及自動編輯敏感信息從文檔中,分析面部識別數據(稱為識別可疑嫌疑人),以及處理音頻和視頻監視數據以查找洞察力,關鍵字和圖像類型。 ”它還指出,Veritone為包括法律,能源和娛樂在內的各種行業提供了AI服務 - 這意味著潛力數據洩露無處不在。
Upguard發現了Veritone的第一個暴露於託管在微軟3月23日,Azure政府雲。它包含4.64億個文件。第二天,發現了第二台服務器,其中包含12億個文檔。根據博客,“這些服務器不需要或要求任何憑據,而是向互聯網上的任何人提供匿名訪問。”
在意識到違規之後,Veritone於3月30日確保了彈性服務器。數據不再公開可用。
在這種情況下,故障不在於Elasticsearch。該軟件是旨在快速搜索大型數據集的開源搜索和分析引擎,可以配置為需要身份驗證。但是,Veritone的服務器未被配置為這樣 - 一種削弱了其他安全措施並使政府數據暴露的監督。 Elasticsearch對配置用於身份驗證的軟件的必要性很透明。 2020年的博客概述了用戶可以採取的簡單步驟保護他們的數據來自違規。
在Axios的訪談,網絡研究的Upguard副總裁Greg Pollock表示,微軟也很可能已經脫穎而出。 Pollock說:“微軟正在為政府云作為服務;他們可能不參與該數據庫的管理。”
如果責任在於Veritone未能正確配置ElasticSearch服務器,那麼Upguard的評估清楚地暗示著“諸如旋轉彈性服務器之類的操作任務應該具有控制權,以確保服務器無法公開訪問”濫用數據。儘管如此,鑑於Veritone信息的數量和敏感性,違規行為可能對如何收集,存儲和確保AI培訓數據庫具有重大影響。