17萬本盜版書：據稱Meta和其他公司用這些書來訓練他們的人工智慧

據說，馬克·祖克柏的團隊和人工智慧領域的其他公司已經在被駭客入侵的資料庫 Books3 上訓練了他們的生成式人工智慧系統：根據《大西洋月刊》的調查，其中包含以下內容。

一個秘密且被駭客入侵的資料庫，由著名作家撰寫的書籍，例如史蒂芬金和瑪格麗特·阿特伍德，以及不透明的沉默：這就是亞歷克斯·賴斯納的調查的總結。這位電腦科學家和作家在專欄中講述了他的調查大西洋報8月19日，沉浸在訓練資料庫中主要語言模型。因為它是幾個月來，作者一直在抱怨自己的作品被用作訓練數據ChatGPT、Bard 或 DALL-E 等生成式人工智慧系統在未經他們同意的情況下使用，直到現在他們還沒有絲毫存取這些資料的權限。開發生成式人工智慧工具來產生文字、圖像或程式碼的公司目前不受該領域透明度義務的約束。當被問及系統中訓練資料的內容時，他們通常會迴避。

亞歷克斯·賴斯納 (Alex Reisner) 解釋說，他從一個觀察開始：為了對提示做出回應，人工智慧系統必須攝取網路上數十億個可自由存取的數據，但不僅如此。他們還必須接受大量“更多定性數據»：受版權保護的書籍，任何輕微的使用都需要權利人的同意。如果盜版圖書館的存在相對廣為人知，那麼其內容卻相對較少。我們試圖澄清的正是這一點大西洋報。

書籍3，«複製 ChatGPT 等模型的唯一方法»

Alex Reisner 解釋說，他花了很多時間在 GitHub 和 Hugging Face 平台上，閱讀大學開發者和業餘愛好者的討論。據稱他隨後下載了大量緩存由非營利組織 EleutherAI 創建的培訓文本其中包含 Books3 資料集。

Books3 由倡導開源的研究員 Shawn Presser 於 2020 年上線。複製 ChatGPT 等模型的唯一方法」。沒有這個資料集，只有企業“十億美元 »他向我們的同事解釋道，就像 OpenAI 將有足夠的資源來創建生成式人工智慧工具一樣。吉茲莫多。根據他轉發的一條推文，後者將包含近 196,640 條 plain.txt 格式的引用洪流怪胎。

過去 20 年出版了 17 萬本書

這個基地本來會被Meta用來訓練他的駱駝大型語言模型元人工智慧，這是一種開源模型，正如該公司自己在一份研究論文中所寫的那樣，它是 OpenAI GPT 的替代品。這種用途也是去年 7 月在美國發起的一項試驗的核心，該試驗讓美國喜劇演員 Sarah Silverman 和另外兩名作者對抗 Meta 和 OpenAI。

這個基地包含什麼？據我們的同事說，她包含大量盜版書籍（近17萬冊），其中大部分是在過去20年出版的，以及其他更令人驚訝的數據，例如YouTube 視訊字幕、歐洲議會文件和文字記錄、英語維基百科、安然公司 2001 年倒閉前員工發送和接收的電子郵件。

另請閱讀：一場偉大的「數位掠奪」：當生成式人工智慧挑戰版權時

Meta 不願對此事發表評論

驚悚片、紀錄片、研究作品、相關書籍佔小說的三分之一和紀錄片的三分之二，來自大大小小的出版商，包括美國最大的出版社之一企鵝蘭登書屋。史蒂芬金、瑪格麗特阿特伍德、村上春樹等人所寫的書籍因此可以作為生成人工智慧程式的訓練數據，例如Bloomberg 的 BloombergGPT、EleutherAI 的 GPT-J（一種流行的開源模型）以及 Meta 的 LLaMA。

Books3 直到最近才在 The Eye 平台上提供。但去年七月，在收到代表約一百名丹麥權利人的組織權利聯盟的請求後，後者決定撤回該法案，以避免法律訴訟。不過，在其他平台上仍然可以找到它。

在我們同事的詢問下，馬克·祖克柏的團隊不願對此事發表評論。彭博證實 Books3 用於訓練最初的 BloombergGPT 模型，但表示將不再用於後續版本。從法律上講，開發生成式人工智慧的公司不需要準確列出他們用來訓練工具的資料。但在歐洲，未來對人工智慧的監管應該會填補這一空白，並迫使該產業的巨頭展現透明度。