การค้นหาข้อมูลเพื่อเอาชนะการแข่งขัน AI ในโลกที่ข้อมูลไม่สามารถเข้าถึงได้อย่างเปิดเผยหรือไม่จำกัด นี่คือปริศนาของบริษัททั้งสามนี้ในภาคนี้ รายงานโดย New York Times จะมีการพิจารณาแนวทางที่แตกต่างกัน เช่น การซื้อฐานข้อมูลคืน การถอดเสียงวิดีโอหรือพอดแคสต์ หรือการใช้ข้อมูลที่ได้รับการคุ้มครองโดยลิขสิทธิ์ โดยไม่ได้รับอนุญาต
ค้นหาข้อมูลแล้วคุณจะครองตลาดปัญญาประดิษฐ์: "ภารกิจ" เพื่อค้นหาข้อมูล และอุปสรรคทางกฎหมายหรือในทางปฏิบัตินับพันประการที่ต้องเผชิญกับOpenAI, Google และ Meta นี่คือสิ่งที่นิวยอร์กไทม์สในเรื่องราวที่เผยแพร่เมื่อวันที่ 6 เมษายน เพื่อนร่วมงานของเราอธิบายโดยใช้บันทึกการประชุมภายในและคำให้การที่ไม่เปิดเผยตัวตนว่า Meta, OpenAI และGoogleซึ่งทุกคนได้พัฒนา generative AIs เช่น Llama, ChatGPT และราศีเมถุนกำลังเผชิญหน้ากับความจริง”การขาดแคลน- เพียงพอที่จะทำให้พวกเขาพิจารณาทางเลือกต่างๆ มากมาย ซึ่งบางครั้งก็ขึ้นอยู่กับความถูกต้องตามกฎหมาย เพื่อค้นหาสิ่งที่จะทำให้พวกเขาชนะการแข่งขันด้าน AI กล่าวคือ ข้อมูลที่ป้อนโมเดลภาษาขนาดใหญ่ของพวกเขา ซึ่งช่วยให้คนสุดท้ายเหล่านี้ได้เรียนรู้วิธีการกำหนดประโยค โค้ดหรือสร้างวิดีโอ
ภารกิจที่แท้จริงนี้จัดทำขึ้นในเดือนมกราคม 2020 โดย Jared Kaplan นักฟิสิกส์จาก American Johns Hopkins University ซึ่งปัจจุบันทำงานที่มานุษยวิทยา- ในปีนั้น นักวิทยาศาสตร์ได้ตั้งข้อสังเกตต่อไปนี้ในบทความเกี่ยวกับ AI: ยิ่งมีข้อมูลในการฝึกโมเดลภาษาขนาดใหญ่มากเท่าใด ก็จะยิ่งมีประสิทธิภาพมากขึ้นเท่านั้น เช่นเดียวกับนักเรียนที่ได้รับการฝึกฝนมากขึ้นจากการอ่านหนังสือหลายเล่ม .
แม้ว่าบริษัทในภาคส่วนนี้จะยอมรับหลักการนี้อย่างเป็นเอกฉันท์ แต่พวกเขาต้องเผชิญกับปัญหาสำคัญ: ข้อมูลที่เป็นปัญหาไม่สามารถเข้าถึงได้อย่างอิสระหรือไม่จำกัด จุดที่ได้รับการยอมรับเมื่อเดือนพฤษภาคมที่ผ่านมาโดยแซม อัลท์แมนที่หัวหน้าของ OpenAI ในระหว่างการประชุม ผู้จัดการยอมรับว่าบริษัท AI ซึ่งต้องการข้อมูลมากขึ้นเรื่อยๆ จะ "หมด" ข้อมูลที่ใช้ได้ทั้งหมดบนอินเทอร์เน็ตในไม่ช้า เช่น บทความข่าว ความคิดเห็นหรือข้อความในฟอรัม บทความ Wikipedia รูปภาพ พ็อดแคสต์ วิดีโอ และยังมีผลงานบางส่วนอีกด้วย
ข้อสรุปนี้จัดทำโดยผู้อื่น เช่น สถาบันวิจัย Epoch ซึ่งบริษัทต่างๆ สามารถใช้ข้อมูล "คุณภาพสูง" บนอินเทอร์เน็ตหมดภายในปี 2026 ซึ่งเป็นข้อมูลจากหนังสือหรือบทความที่เขียนโดยผู้เชี่ยวชาญ กล่าวอีกนัยหนึ่ง บริษัทที่พัฒนา AI จะใช้ข้อมูลเร็วกว่าที่ผลิต
ที่ Meta: การประชุมวิกฤตในเดือนมีนาคมและเมษายน 2023 เพื่อค้นหาข้อมูล
จะแก้ไขปัญหานี้อย่างไร? เป็นเวลาหลายเดือนแล้วที่บริษัทในภาคส่วนนี้ได้พิจารณาโซลูชันที่แตกต่างกัน โดยเริ่มจาก Meta รายงานนิวยอร์กไทม์ส- เมื่อต้นปี 2023 กลุ่มของ Mark Zuckerberg จะสังเกตเห็นว่าไม่มีข้อมูลเพียงพอที่จะจัดตั้ง LLM อีกต่อไป และจากบันทึกการประชุมภายในที่พนักงานคนหนึ่งแชร์กับเพื่อนร่วมงานของเรา ข้อสังเกตนี้จัดทำโดย Ahmad Al-Dahle รองประธานฝ่าย Generative AI ของ Meta กล่าวว่าทีมงานของเขาใช้หนังสือ เรียงความ บทกวี และบทความข่าวเกือบทุกเล่มที่เป็นภาษาอังกฤษบนเว็บ อย่างไรก็ตาม หากไม่มีข้อมูลเพิ่มเติม Meta จะไม่สามารถแข่งขันกับ ChatGPT ได้เว้นแต่จะได้รับข้อมูลเพิ่มเติม Ahmad Al-Dahle รายงานว่าอธิบาย
ในเดือนมีนาคมและเมษายน 2023 การประชุมจะตามมาเพื่อค้นหาวิธีเอาหินออกจากรองเท้าของ Meta ภายในบริษัทแม่ของ Facebook และ Instagram อันดับแรกเราพิจารณาซื้อสำนักพิมพ์ Simon & Schuster วัตถุประสงค์: เพื่อให้สามารถเข้าถึงผลงานที่ยาวนานตามการประชุมภายในที่บันทึกไว้ซึ่งสื่ออเมริกันสามารถเข้าถึงได้ พนักงานของ Meta ถูกกล่าวหาว่าหารือเกี่ยวกับการใช้ผลงานที่มีลิขสิทธิ์บนเว็บ และการเจรจาเรื่องใบอนุญาตกับผู้จัดพิมพ์ ศิลปิน นักดนตรี และสื่อต่างๆ แต่ภายในเราคงรู้สึกว่าขั้นตอนสุดท้ายนี้จะใช้เวลานานเกินไป และทำให้ Meta ล้าหลังเกินไปในการแข่งขัน AI ครั้งนี้ มีรายงานว่าทนายความในระหว่างการประชุมครั้งหนึ่งได้เตือนว่า “ข้อกังวลด้านจริยธรรม» เชื่อมโยงกับการใช้ทรัพย์สินทางปัญญาของศิลปินและผู้แต่งโดยไม่ได้รับอนุญาต การแจ้งเตือนของเขาตามมาด้วยความเงียบ อธิบายเพื่อนร่วมงานของเรา และสนับสนุนการบันทึกการประชุม
และท้ายที่สุดนี่คือตัวเลือกที่จะถูกเลือก มีรายงานว่าทนายความของกลุ่มอธิบายว่าควรพิจารณาการรวบรวมข้อมูลจากเว็บซึ่งช่วยให้สามารถฝึกอบรมโมเดล AI ได้ "การใช้งานโดยชอบธรรม- ข้อยกเว้นของกฎหมายลิขสิทธิ์ของสหรัฐอเมริกาอนุญาตให้ใช้งานที่มีลิขสิทธิ์ได้ในบางกรณี แต่กรณีดังกล่าวสำหรับการฝึกอบรม AI ยังไม่ได้รับการพิจารณาจากศาลอเมริกัน สำหรับศิลปินและนักเขียนการใช้งานนี้ถือเป็นของจริง”การปล้นสะดม» ซึ่งจะต้องหยุดและได้รับการชดเชย เมื่อถามเพื่อนร่วมงานของเรา Meta อธิบายว่าเขา “ทำการลงทุนเชิงรุก» เพื่อบูรณาการ AI เข้ากับบริการของตน กลุ่มดังกล่าวเสริมว่ามีรูปภาพและวิดีโอหลายพันล้านรายการที่แชร์แบบสาธารณะบน Instagram และ Facebook เพื่อฝึกโมเดลของตน
อ่านเพิ่มเติม: คุณ“การปล้นแบบดิจิทัล” ที่ยอดเยี่ยม: เมื่อ AI กำเนิดท้าทายลิขสิทธิ์
แต่สำหรับ Sy Damle ทนายความที่เป็นตัวแทนของบริษัทร่วมทุนใน Silicon Valley ที่อาศัยข้อมูลที่มีลิขสิทธิ์แต่สามารถเข้าถึงได้บนเว็บคือ "มีเพียงวิธีที่ใช้งานได้จริงเท่านั้นที่จะมีเครื่องมือเหล่านี้ (AI, หมายเหตุบรรณาธิการ)» – ข้อโต้แย้งที่บริษัทในภาคส่วนนี้หยิบยกขึ้นมาเป็นประจำ AI เจนเนอเรชั่นเหล่านี้ต้องจัดให้มี”ได้รับการฝึกอบรมเกี่ยวกับข้อมูลจำนวนมหาศาลโดยไม่ต้องจ่ายค่าใบอนุญาตสำหรับข้อมูลนั้น» อธิบายทนายความคนนี้เมื่อปีที่แล้วในระหว่างการอภิปรายสาธารณะเกี่ยวกับลิขสิทธิ์และโมเดล AI ซึ่งเพื่อนร่วมงานของเราสะท้อน -ข้อมูลที่จำเป็นมีขนาดใหญ่มากจนแม้แต่ใบอนุญาตแบบรวมก็ไม่สามารถทำงานได้จริงๆ“ เขากล่าวเสริม
อ่านเพิ่มเติม:ไม่สามารถสร้าง ChatGPT โดยไม่มีเนื้อหาที่ได้รับการคุ้มครองลิขสิทธิ์ OpenAI กล่าว
ที่ Google: การใช้วิดีโอ YouTube
ในส่วนของ Google จะชดเชยการขาดแคลนโดยใช้หนึ่งในแพลตฟอร์ม: YouTube เขาถูกกล่าวหาว่าถอดเสียงวิดีโอ YouTube ให้เป็นข้อความ – จากนั้นจึงใช้ฝึกโมเดล AI ของเขา ตาม “ห้าคนที่คุ้นเคยกับหลักปฏิบัติของบริษัท» ถูกถามโดยเพื่อนร่วมงานของเรา มีรายงานว่ายักษ์ใหญ่ดังกล่าวได้เปลี่ยนเงื่อนไขการใช้งานสำหรับแอปพลิเคชันผู้บริโภคฟรีเช่น Google ชีตหรือ Google Doc เมื่อเดือนกรกฎาคมปีที่แล้ว วัตถุประสงค์: เพื่อขยายการใช้ข้อมูลผู้ใช้ที่เปิดเผยต่อสาธารณะไปยัง Bard ซึ่งเดิมชื่อ Gemini ซึ่งเป็น AI กำเนิดของมัน ระบุนิวยอร์กไทม์ส-
แต่โฆษกของ Google บอกว่าคงไม่มีประโยชน์อะไร”โดยไม่ได้รับอนุญาตอย่างชัดแจ้ง» ของผู้ใช้ โดยอ้างอิงถึงโปรแกรมสมัครใจซึ่งช่วยให้พวกเขาสามารถทดสอบฟังก์ชันการทดลองบางอย่างได้ โมเดล AI ของมัน”ได้รับการฝึกอบรมเกี่ยวกับเนื้อหา YouTube บางอย่าง» ซึ่งจะได้รับอนุญาตภายในกรอบข้อตกลงกับผู้สร้างเนื้อหา YouTube เขากล่าวเสริมกับเพื่อนร่วมงานของเรา
OpenAI จะเลือกใช้การถอดเสียงวิดีโอเป็นลายลักษณ์อักษร
ที่ OpenAI นักวิจัยใช้ข้อมูลเช่น GitHub ที่เก็บโค้ดคอมพิวเตอร์เป็นครั้งแรก หรือข้อมูลที่อธิบายการทดสอบและการบ้านในโรงเรียนมัธยมศึกษาตอนปลายจากเว็บไซต์ Quizlet แต่ตั้งแต่เดือนธันวาคม 2564 ผู้นำภาคอุตสาหกรรมก็ประสบปัญหาการขาดแคลนเหมือนเดิม ไม่มีข้อมูลอีกต่อไป ทีมพัฒนา GPT-4 จะต้องพิจารณาตัวเลือกต่างๆ ได้แก่ การสร้างข้อมูลสังเคราะห์ (สร้างโดยระบบ AI) การถอดพอดแคสต์หรือวิดีโอ YouTube เป็นการเขียน หรือการซื้อสตาร์ทอัพที่รวบรวมข้อมูลดิจิทัลจำนวนมาก สุดท้าย OpenAI เลือกใช้ Whisper ซึ่งเป็นเครื่องมือที่ช่วยให้คุณสามารถถอดเสียงวิดีโอ YouTube และพอดแคสต์เป็นลายลักษณ์อักษรได้ตามข้อมูลจากคนหกคนที่สัมภาษณ์โดยเพื่อนร่วมงานของเรา
และหากบริษัทอเมริกันตั้งข้อสังเกตว่า YouTube ห้าม”วิธีการอัตโนมัติใดๆ (เช่น หุ่นยนต์หรือเครื่องขูด)» ในวิดีโอของเขา ขีดจำกัดนี้สามารถหลีกเลี่ยงได้เนื่องจาก "การใช้งานโดยชอบธรรม» ซึ่งเป็นข้อยกเว้นสำหรับกฎหมายลิขสิทธิ์ของสหรัฐอเมริกา ทีม OpenAI คิดว่าเป็นไปตามคำให้การที่เพื่อนร่วมงานของเรารวบรวมไว้
การใช้วิดีโอ YouTube ของ OpenAI กระทำผิดกฎหมาย ซึ่งเป็นการละเมิดลิขสิทธิ์ของผู้สร้างเนื้อหา YouTube หรือไม่ ไม่จำเป็นจะต้องอธิบายคนที่ให้สัมภาษณ์ด้วยนิวยอร์กไทม์ส- เนื่องจากความจริงที่ว่า Google จะทำเช่นเดียวกัน – การใช้การถอดเสียงวิดีโอ YouTube เพื่อฝึกโมเดล AI ของตัวเอง – จะปกป้องพวกเขาจากการกระทำใด ๆ ในส่วนของยักษ์ใหญ่ ตามที่ผู้ให้สัมภาษณ์ หาก Google บ่นเกี่ยวกับแนวทางปฏิบัติของ OpenAI มันก็จะยิงตัวเองตายเพราะวิธีการของมันเองจะถูกตรวจสอบอย่างละเอียดพวกเขากล่าวเสริม
เมื่อถูกถามในประเด็นนี้ Matt Bryant โฆษกของ Google อธิบายให้เพื่อนร่วมงานของเราทราบว่าบริษัทไม่ทราบถึงหลักปฏิบัติของ OpenAI และการดาวน์โหลดเนื้อหาจาก YouTube ไม่ได้รับอนุญาต Google จะดำเนินการเฉพาะในส่วนของตนหากมีพื้นฐานทางกฎหมายในการดำเนินการดังกล่าว เขากล่าวต่อ นี่หมายความว่า Google ได้รับอนุญาตให้ใช้ข้อมูลผู้ใช้ YouTube เพื่อป้อนโมเดล AI ซึ่งเป็นบริการภายนอกแพลตฟอร์มวิดีโอใช่หรือไม่ ตามที่ผู้เชี่ยวชาญให้สัมภาษณ์โดยชาวอเมริกันรายวัน คำตอบสำหรับคำถามนี้ยังไม่ชัดเจนนัก และถึงแม้จะมีพื้นที่สีเทาเหล่านี้ บริษัทในภาคส่วนนี้ก็ยังสามารถไปถึงจุดสูงสุดได้ นั่นคือข้อมูลที่มีอยู่ สิ่งที่ AI ต้องทำคือสร้างข้อมูลสังเคราะห์ ซึ่งเป็นข้อมูลที่สร้างขึ้นเองเพื่อให้เหนือกว่าข้อมูลดังกล่าว ซึ่งเป็นแนวทางที่กำลังพิจารณาอยู่ ซึ่งในขณะนี้ยังอยู่ในช่วงเริ่มต้นเท่านั้น
🔴 เพื่อไม่ให้พลาดข่าวสารจาก 01net ติดตามเราได้ที่Google ข่าวสารetวอทส์แอพพ์-
แหล่งที่มา : นิวยอร์กไทม์ส