หนังสือละเมิดลิขสิทธิ์ 170,000 เล่ม: นี่คือสิ่งที่ Meta และบริษัทอื่นๆ ที่ถูกกล่าวหาว่าใช้เพื่อฝึก AI ของพวกเขา

กลุ่มของ Mark Zuckerberg และบริษัทอื่นๆ ในภาคปัญญาประดิษฐ์ได้รับการกล่าวขานว่าได้ฝึกอบรมระบบ AI กำเนิดของพวกเขาบนฐานข้อมูลที่ถูกแฮ็ก Books3: นี่คือสิ่งที่ประกอบด้วย ตามการสืบสวนของ The Atlantic

ฐานข้อมูลลับและถูกแฮ็ก หนังสือของนักเขียนชื่อดังเช่นสตีเฟน คิงและ Margaret Atwood และความเงียบทึบ: นี่คือวิธีสรุปการสืบสวนของ Alex Reisner นักวิทยาศาสตร์คอมพิวเตอร์และนักเขียนคนนี้ ซึ่งเกี่ยวข้องกับการสืบสวนของเขาในคอลัมน์ของมหาสมุทรแอตแลนติกเมื่อวันที่ 19 สิงหาคม เข้าสู่ฐานข้อมูลการฝึกอบรมของแบบจำลองภาษาหลัก- เพราะว่ามันเป็นผู้เขียนบ่นมาหลายเดือนแล้วเกี่ยวกับการเห็นผลงานของตนใช้เป็นข้อมูลการฝึกอบรมระบบ AI กำเนิดเช่น ChatGPT, Bard หรือ DALL-E โดยไม่ได้รับความยินยอม จนถึงขณะนี้พวกเขาไม่สามารถเข้าถึงข้อมูลนี้แม้แต่น้อย บริษัทที่พัฒนาเครื่องมือ generative AI เพื่อสร้างข้อความ รูปภาพ หรือโค้ด ปัจจุบันไม่อยู่ภายใต้ข้อผูกพันด้านความโปร่งใสในพื้นที่นี้ และเมื่อถูกถามเกี่ยวกับเนื้อหาของข้อมูลการฝึกอบรมนี้ในระบบ พวกเขามักจะยังคงหลบเลี่ยงอยู่

Alex Reisner อธิบายว่าเขาเริ่มต้นจากการสังเกต: เพื่อตอบสนองต่อการแจ้งเตือน ระบบ AI ต้องนำเข้าข้อมูลที่เข้าถึงได้ฟรีนับพันล้านบนเว็บ แต่ไม่เพียงเท่านั้น พวกเขายังต้องฝึกให้ได้จำนวนที่ดี”ข้อมูลเชิงคุณภาพมากขึ้น»: หนังสือที่ได้รับการคุ้มครองโดยลิขสิทธิ์การใช้งานเพียงเล็กน้อยควรต้องได้รับความยินยอมจากผู้ถือสิทธิ์- หากการมีอยู่ของห้องสมุดละเมิดลิขสิทธิ์เป็นที่รู้จักกันดี เนื้อหาของห้องสมุดก็จะน้อยลง และนี่คือประเด็นที่เราพยายามชี้แจงอย่างชัดเจนมหาสมุทรแอตแลนติก-

หนังสือ3, «วิธีเดียวที่จะจำลองโมเดลเช่น ChatGPT-

Alex Reisner อธิบายว่าเขาใช้เวลาบนแพลตฟอร์ม GitHub และ Hugging Face อ่านการสนทนาจากนักพัฒนามหาวิทยาลัยและมือสมัครเล่น จากนั้นเขาถูกกล่าวหาว่าดาวน์โหลดแคชขนาดใหญ่ของข้อความการฝึกอบรมที่สร้างโดย EleutherAI ซึ่งเป็นองค์กรที่ไม่แสวงหากำไร —ซึ่งมีชุดข้อมูล Books3

Books3 วางออนไลน์โดย Shawn Presser นักวิจัยที่สนับสนุนโอเพ่นซอร์สในปี 2020 สำหรับอย่างหลังฐานข้อมูลนี้คือ “วิธีเดียวที่จะจำลองโมเดลเช่น ChatGPT- หากไม่มีชุดข้อมูลนี้จะมีเฉพาะบริษัทเท่านั้น”หนึ่งพันล้านดอลลาร์ »เช่นเดียวกับ OpenAI จะมีทรัพยากรเพียงพอที่จะสร้างเครื่องมือ AI เชิงสร้างสรรค์ เขาอธิบายให้เพื่อนร่วมงานของเราฟังที่กิซโมโด- หลังนี้จะมีการอ้างอิงเกือบ 196,640 รายการในรูปแบบ plain.txt ตามทวีตของเขาที่ส่งต่อโดยทอร์เรนต์ ประหลาด.

หนังสือ 170,000 เล่มที่ตีพิมพ์ในช่วง 20 ปีที่ผ่านมา

Meta จะใช้ฐานนี้เพื่อฝึกเขาลามะเทโมเดลภาษาขนาดใหญ่ Meta AIซึ่งเป็นโมเดลโอเพ่นซอร์สที่นำเสนอเป็นทางเลือกแทน GPT ของ OpenAI ตามที่บริษัทเขียนไว้ในรายงานการวิจัย การใช้งานนี้เป็นหัวใจสำคัญของการทดลองที่ริเริ่มเมื่อเดือนกรกฎาคมปีที่แล้วในสหรัฐอเมริกา โดยมีนักแสดงตลกชาวอเมริกัน Sarah Silverman และนักเขียนอีกสองคนต่อต้าน Meta และ OpenAI

และฐานนี้มีอะไรบ้าง? ตามที่เพื่อนร่วมงานของเราเธอมีหนังสือละเมิดลิขสิทธิ์จำนวนมาก (เกือบ 170,000 เล่ม) ซึ่งส่วนใหญ่ตีพิมพ์ในช่วง 20 ปีที่ผ่านมา รวมถึงข้อมูลที่น่าแปลกใจอื่น ๆ เช่นคำบรรยายวิดีโอ YouTube, เอกสารและการถอดเสียงของรัฐสภายุโรป, วิกิพีเดียภาษาอังกฤษ, อีเมลที่ส่งและรับโดยพนักงานของ Enron Corporation ก่อนการล่มสลายในปี 2544

อ่านเพิ่มเติม:“การปล้นทางดิจิทัล” ที่ยิ่งใหญ่: เมื่อ AI กำเนิดท้าทายลิขสิทธิ์

เมตาไม่ต้องการแสดงความคิดเห็นในเรื่องนี้

ภาพยนตร์ระทึกขวัญ สารคดี งานวิจัย หนังสือที่เกี่ยวข้องเป็นตัวแทนหนึ่งในสามของนวนิยาย และสองในสามของสารคดีที่มาจากสำนักพิมพ์รายใหญ่และรายเล็ก รวมถึง Penguin Random House ซึ่งเป็นสำนักพิมพ์ที่ใหญ่ที่สุดแห่งหนึ่งในอเมริกา หนังสือที่เขียนโดย Stephen King, Margaret Atwood, Haruki Murakami และคนอื่นๆ อีกมากมายจึงได้นำไปใช้เป็นข้อมูลการฝึกอบรมสำหรับโปรแกรม AI เชิงสร้างสรรค์ เช่นBloombergGPT ของ Bloomberg, GPT-J ของ EleutherAI ซึ่งเป็นโมเดลโอเพ่นซอร์สยอดนิยม นอกเหนือจาก LLaMA ของ Meta

Books3 วางจำหน่ายบนแพลตฟอร์ม The Eye เมื่อไม่นานมานี้ แต่เมื่อเดือนกรกฎาคมปีที่แล้ว ฝ่ายหลังตัดสินใจถอนตัวเพื่อหลีกเลี่ยงการดำเนินคดีทางกฎหมาย หลังจากได้รับคำขอจาก Rights Alliance ซึ่งเป็นองค์กรที่เป็นตัวแทนของผู้ถือสิทธิ์ในเดนมาร์กประมาณร้อยคน อย่างไรก็ตาม ก็ยังสามารถพบได้บนแพลตฟอร์มอื่น

เมื่อเพื่อนร่วมงานของเราตั้งคำถาม กลุ่มของ Mark Zuckerberg ไม่ต้องการแสดงความคิดเห็นในเรื่องนี้ Bloomberg ยืนยันว่า Books3 ถูกใช้เพื่อฝึกโมเดล BloombergGPT เริ่มต้น แต่บอกว่าจะไม่ใช้กับเวอร์ชันต่อๆ ไปอีกต่อไป ตามกฎหมายแล้ว บริษัทที่พัฒนา generative AI ไม่จำเป็นต้องระบุอย่างชัดเจนว่าข้อมูลใดที่พวกเขาใช้ในการฝึกอบรมเครื่องมือของตน แต่ในยุโรป กฎระเบียบในอนาคตเกี่ยวกับ AI ควรเติมเต็มช่องว่างนี้ และบังคับให้ยักษ์ใหญ่ในภาคส่วนนี้แสดงความโปร่งใส