数千个密码用于训练 ChatGPT 和其他 AI

2025-03-03

研究人员在 Common Crawl 中发现了近 12,000 条敏感信息，例如 API 密钥和密码松露安全。 Common Crawl 是大量开源数据的名称。自 2008 年以来通过网络收集，该数据特别用于训练人工智能模型。 OpenAI、DeepSeek、Google、Meta、Anthropic 和 Stability 等巨头使用数据存储库来训练他们的语言模型（大型语言模型，或 LLM）。人工智能喜欢的部分原因是这些数据不断发展并学习响应用户的请求。

“我们怀疑训练数据中可能存在硬编码凭据，这可能会影响模型的行为”，Truffle Security 解释道。

另请阅读：

向 AI 提供近 12,000 条机密信息

研究人员从 26.7 亿个网页中梳理了 400 TB 的数据，表示该存储库包括11,908 条机密信息。扫描依赖于 TruffleHog，这是一种开源安全工具，旨在搜索敏感信息，如 API 密钥、密码或其他秘密。

因此，他们在训练期间发现自己处于人工智能的手中。这一发现“凸显了一个日益严重的问题：接受过不安全代码培训的法学硕士可能会无意中产生不安全的结果”。简而言之，人工智能可以以一种或另一种方式披露信息，并产生包含敏感数据的响应。但是，应该记住，用于训练大型语言模型的数据始终在上游进行处理。此处理通过排除重复、有害或无用信息来清理数据。

在语料库中挖掘的数据中，我们发现有效的 API 密钥可提供对 Amazon Web Services (AWS) 或 MailChimp 等服务的访问。最重要的是，研究人员发现了电子邮件发送自动化平台 MailChimp 的大量密钥。