在用於引起AI的數據語料庫中發現了將近12,000個敏感信息,例如API鍵和密碼,例如ChatGpt。這種洩漏引起了人們對用於培訓人工智能的數據的安全性...
近12,000個敏感信息,例如API密鑰和密碼,在普通爬網中發現了松露安全性。常見的爬網是大型開源數據的名稱。自2008年以來通過網絡收集,該數據特別使用訓練AI模型。諸如OpenAI,DeepSeek,Google,Meta,Anthropic and穩定性之類的巨人使用數據庫來形成他們的語言模型(大型模型語言或LLM)。部分歸功於這些數據,AI是chatgpt進化並學會回應用戶的請求。
“我們懷疑訓練數據中可能存在硬編碼的識別信息,這可能會影響模型的行為”,解釋松露安全性。
提供給AI的近12,000個機密信息
根據研究人員的說法,從26.7億網頁中剝離了400個數據,存儲庫包括11,908機密信息。掃描依賴於Trufflehog,這是一種開源安全工具,旨在搜索敏感信息,例如API鍵,密碼或其他秘密。
因此,他們在培訓期間發現自己掌握在人工智能的手中。這個發現“強調一個日益嚴重的問題:接受無抵押代碼培訓的LLM可以不由自主地產生風險結果”。顯然,AI可以以一種或另一種方式披露信息,並產生包括敏感數據的響應。然而,要記住,用於導致大型語言模型的數據總是在上游處理。這種處理可以通過排除重複,有害或無用的信息來清潔數據。
在語料庫中發現的數據中,有有效的API鍵,可提供對Amazon Web Services(AWS)或MailChimp等服務的訪問。研究人員尤其發現MailChimp的鑰匙大量是發送電子郵件的自動化平台。
開發人員的錯誤
如解釋松露安全性在其報告中,開發人員犯了一個直接插入敏感數據的錯誤(例如標識符或API密鑰)在HTML形式的代碼和JavaScript腳本中。甚至幾次返回了一些鑰匙,從而最大化風險。
在發現之後,松露安全性與包括鑰匙和包括密鑰在內的所有實體接觸密碼發現自己掌握在AI手中。在研究人員的幫助下,公司能夠“巡迴/撤銷數千個鑰匙”作為安全措施。
來源 : 松露安全性