人工智慧如何在匿名資料集中識別人員
每週的社交互動形成獨特的簽名,使人們脫穎而出
戴口罩可能會讓你在人群中保持匿名。 但在匿名手機資料庫中,人工智慧仍然可以根據你的社交互動模式找到你。
leminuit/iStock Unreleased/Getty Images Plus
你與人群的互動方式可能會幫助你脫穎而出,至少在人工智慧方面是如此。
當提供有關目標個人的手機互動及其聯絡人的資訊時? 交互,AI可以正確從超過 40,000 名匿名行動電話服務用戶中挑選目標研究人員在 1 月 25 日報告稱,超過一半的情況是自然通訊。 研究結果表明,人類的社交方式可以用來從據稱是匿名的資料集中挑選出他們。
明尼蘇達大學電腦科學家賈迪普·斯里瓦斯塔瓦(Jaideep Srivastava) 表示,人們傾向於留在既定的社交圈內,而且隨著時間的推移,這些定期的互動會形成一種穩定的模式,這並不奇怪,他沒有參與這項研究。 “但事實上,你可以使用這種模式來識別個人,這一點令人驚訝。”
根據歐盟的一般資料保護條例和加州消費者隱私權法,收集人們日常互動資訊的公司可以在沒有用戶的情況下共享或出售這些數據嗎? 同意。 問題是數據必須匿名。 倫敦帝國學院計算隱私研究員 Yves-Alexandre de Montjoye 表示,一些組織可能認為他們可以透過為用戶提供假名來滿足這一標準。 “我們的結果表明這不是真的。”
德蒙喬耶和他的同事假設,人們的社交行為可以用來從包含匿名用戶資訊的資料集中挑選出他們? 互動。 為了檢驗他們的假設,研究人員教授了一個人工神經網路? 模擬生物大腦神經迴路的人工智慧? 識別使用者的模式? 每週社交互動。
在一項測試中,研究人員使用來自一項未知的行動電話服務的數據來訓練神經網絡,該服務詳細介紹了 43,606 名用戶? 超過 14 週的互動。 這些數據包括每次互動的日期、時間、持續時間、類型(通話或簡訊)、相關方的假名以及發起通訊的人。
每個使用者的交互資料都被組織成由代表使用者及其聯絡人的節點所組成的網路狀資料結構。 帶有交互資料的字串連接節點。 人工智慧被展示了一個已知人的互動網絡,然後開始搜尋匿名數據,尋找最相似的網路。
當神經網路看到互動網路時,只有 14.7% 的人與其匿名的自我聯繫起來,其中包含有關目標在匿名資料集中最新記錄一周後發生的電話互動資訊。 但當它不僅提供了有關目標互動的信息,還提供了他們的聯絡人的信息時,就識別出了 52.4% 的人。 研究人員何時向人工智慧提供目標和聯絡人? 在匿名資料集 20 週後收集的互動資料中,人工智慧仍能在 24.3% 的時間內正確識別用戶,這表明社交行為在很長一段時間內仍然可識別。
為了了解人工智慧是否可以分析其他地方的社交行為,研究人員在一個數據集上對其進行了測試,該數據集由哥本哈根研究人員收集的587 名匿名大學生手機上為期四週的近距離數據組成。 這包括由學生組成的交互數據? 化名、相遇時間和接收訊號的強度,這表示與其他學生的接近程度。 這些指標通常由 COVID-19 接觸者追蹤應用程式收集。 給定目標及其聯絡人? 在交互數據中,人工智慧正確辨識資料集中學生的機率為 26.4%。
研究人員指出,這些發現可能不適用於谷歌和蘋果的接觸者追蹤協議,該協議可以保護用戶? 透過加密所有藍牙元資料並禁止收集位置資料來保護隱私。
德蒙茹耶表示,他希望這項研究能幫助政策制定者改善保護用戶的策略? 身份。 他說,資料保護法允許共享匿名資料以支持有用的研究。 然而,要實現這一點,最重要的是確保匿名化真正保護個人隱私。