17万本盗版书：据称Meta和其他公司用这些书来训练他们的人工智能

据说，马克·扎克伯格的团队和人工智能领域的其他公司已经在被黑客入侵的数据库 Books3 上训练了他们的生成式人工智能系统：根据《大西洋月刊》的调查，其中包含以下内容。

一个秘密且被黑客入侵的数据库，由著名作家撰写的书籍，例如史蒂芬·金和玛格丽特·阿特伍德，以及不透明的沉默：这就是亚历克斯·赖斯纳的调查的总结。这位计算机科学家和作家在专栏中讲述了他的调查大西洋报8月19日，沉浸在训练数据库中主要语言模型。因为它是几个月来，作者一直在抱怨自己的作品被用作训练数据ChatGPT、Bard 或 DALL-E 等生成式人工智能系统在未经他们同意的情况下使用，直到现在他们还没有丝毫访问这些数据的权限。开发生成式人工智能工具来生成文本、图像或代码的公司目前不受该领域透明度义务的约束。当被问及系统中训练数据的内容时，他们通常会回避。

亚历克斯·赖斯纳 (Alex Reisner) 解释说，他从一个观察开始：为了对提示做出响应，人工智能系统必须摄取网络上数十亿个可自由访问的数据，但不仅如此。他们还必须接受大量“更多定性数据»：受版权保护的书籍，任何轻微的使用都需要获得权利人的同意。如果盗版图书馆的存在相对广为人知，那么其内容却相对较少。我们试图澄清的正是这一点大西洋报。

书籍3，«复制 ChatGPT 等模型的唯一方法»

Alex Reisner 解释说，他花了很多时间在 GitHub 和 Hugging Face 平台上，阅读大学开发者和业余爱好者的讨论。据称他随后下载了大量缓存由非盈利组织 EleutherAI 创建的培训文本其中包含 Books3 数据集。

Books3 由倡导开源的研究员 Shawn Presser 于 2020 年上线。对于后者来说，这个数据库是“复制 ChatGPT 等模型的唯一方法”。没有这个数据集，只有企业“十亿美元 »他向我们的同事解释道，就像 OpenAI 将有足够的资源来创建生成式人工智能工具一样。吉兹莫多。根据他转发的一条推文，后者将包含近 196,640 条 plain.txt 格式的引用洪流怪胎。

过去 20 年出版了 170,000 本书

这个基地本来会被Meta用来训练他的骆驼大型语言模型元人工智能，这是一种开源模型，正如该公司自己在一份研究论文中所写的那样，它是 OpenAI GPT 的替代品。这种用途也是去年 7 月在美国发起的一项试验的核心，该试验让美国喜剧演员 Sarah Silverman 和另外两名作者对抗 Meta 和 OpenAI。

这个基地包含什么？据我们的同事说，她包含大量盗版书籍（近17万册），其中大部分是在过去20年出版的，以及其他更令人惊讶的数据，例如YouTube 视频字幕、欧洲议会文件和文字记录、英语维基百科、安然公司 2001 年倒闭前员工发送和接收的电子邮件。

另请阅读：一场伟大的“数字掠夺”：当生成式人工智能挑战版权时

Meta 不愿对此事发表评论

惊悚片、纪录片、研究作品、相关书籍占小说的三分之一和纪录片的三分之二，来自大大小小的出版商，包括美国最大的出版社之一企鹅兰登书屋。斯蒂芬·金、玛格丽特·阿特伍德、村上春树等人撰写的书籍因此可以作为生成人工智能程序的训练数据，例如Bloomberg 的 BloombergGPT、EleutherAI 的 GPT-J（一种流行的开源模型）以及 Meta 的 LLaMA。

Books3 直到最近才在 The Eye 平台上提供。但去年七月，在收到代表大约一百名丹麦权利人的组织权利联盟的请求后，后者决定撤回该法案，以避免法律诉讼。不过，在其他平台上仍然可以找到它。

在我们同事的询问下，马克·扎克伯格的团队不愿就此事发表评论。彭博社证实 Books3 用于训练最初的 BloombergGPT 模型，但表示将不再用于后续版本。从法律上讲，开发生成式人工智能的公司不需要准确列出他们用来训练工具的数据。但在欧洲，未来对人工智能的监管应该填补这一空白，并迫使该行业的巨头展现透明度。