數以千計的密碼用於培訓chatgpt和其他AI

2025-03-03

在用於引起AI的數據語料庫中發現了將近12,000個敏感信息，例如API鍵和密碼，例如ChatGpt。這種洩漏引起了人們對用於培訓人工智能的數據的安全性...

近12,000個敏感信息，例如API密鑰和密碼，在普通爬網中發現了松露安全性。常見的爬網是大型開源數據的名稱。自2008年以來通過網絡收集，該數據特別使用訓練AI模型。諸如OpenAI，DeepSeek，Google，Meta，Anthropic and穩定性之類的巨人使用數據庫來形成他們的語言模型（大型模型語言或LLM）。部分歸功於這些數據，AI是chatgpt進化並學會回應用戶的請求。

“我們懷疑訓練數據中可能存在硬編碼的識別信息，這可能會影響模型的行為”，解釋松露安全性。

還閱讀：Chatgpt使用GPT-4.5進入高層，它會改變什麼？

提供給AI的近12,000個機密信息

根據研究人員的說法，從26.7億網頁中剝離了400個數據，存儲庫包括11,908機密信息。掃描依賴於Trufflehog，這是一種開源安全工具，旨在搜索敏感信息，例如API鍵，密碼或其他秘密。

因此，他們在培訓期間發現自己掌握在人工智能的手中。這個發現“強調一個日益嚴重的問題：接受無抵押代碼培訓的LLM可以不由自主地產生風險結果”。顯然，AI可以以一種或另一種方式披露信息，並產生包括敏感數據的響應。然而，要記住，用於導致大型語言模型的數據總是在上游處理。這種處理可以通過排除重複，有害或無用的信息來清潔數據。

在語料庫中發現的數據中，有有效的API鍵，可提供對Amazon Web Services（AWS）或MailChimp等服務的訪問。研究人員尤其發現MailChimp的鑰匙大量是發送電子郵件的自動化平台。