เมื่อการเริ่มต้นของจีน AI เริ่มต้นลึกลงไปในฉากในเดือนมกราคมมันจุดประกายการพูดคุยอย่างรุนแรงเกี่ยวกับวิธีการที่มีประสิทธิภาพและคุ้มค่าในการกำเนิด AI แต่เช่นเดียวกับคู่แข่งในสหรัฐอเมริกาเป้าหมายหลักของ Deepseek นั้นมืดมนกว่าเพียงแค่ประสิทธิภาพ: บริษัท มีเป้าหมายที่จะสร้างข่าวกรองทั่วไปที่แท้จริงหรือ AGI ที่แท้จริงครั้งแรก
เป็นเวลาหลายปีที่นักพัฒนา AI - จาก บริษัท สตาร์ทอัพขนาดเล็กไปจนถึง บริษัท เทคโนโลยีขนาดใหญ่ - ได้รับการแข่งไปสู่จุดสิ้นสุดที่เข้าใจยากนี้ AGI พวกเขากล่าวว่าจะทำเครื่องหมายจุดเปลี่ยนที่สำคัญทำให้ระบบคอมพิวเตอร์สามารถแทนที่คนงานมนุษย์ทำให้ AI น่าเชื่อถือกว่าความเชี่ยวชาญของมนุษย์และการวางตำแหน่งปัญญาประดิษฐ์เป็นเครื่องมือที่ดีที่สุดสำหรับความก้าวหน้าทางสังคม
แต่หลายปีในการแข่งขัน AI, AGI ยังคงเป็นแนวคิดที่กำหนดไว้ไม่ดีและเป็นที่ถกเถียงกันอยู่ นักวิทยาศาสตร์คอมพิวเตอร์และ บริษัท บางคนวางกรอบเป็นเกณฑ์สำหรับศักยภาพของ AI ในการเปลี่ยนแปลงสังคม ผู้ให้การสนับสนุนด้านเทคโนโลยีแนะนำว่าเมื่อเรามีคอมพิวเตอร์ที่มีอำนาจเหนือกว่าชีวิตประจำวันสามารถเปลี่ยนแปลงได้โดยพื้นฐานส่งผลกระทบต่อการทำงานการกำกับดูแลและก้าวของการค้นพบทางวิทยาศาสตร์
แต่ผู้เชี่ยวชาญหลายคนสงสัยว่าเราอยู่ใกล้แค่ไหนกับยูโทเปียที่ขับเคลื่อนด้วย AI และยูทิลิตี้ที่ใช้งานได้จริงของ AGI มีข้อตกลง จำกัด เกี่ยวกับความหมายของ AGI และไม่มีวิธีที่ชัดเจนในการวัด บางคนแย้งว่า AGI ทำหน้าที่ได้มากกว่าคำศัพท์การตลาดเพียงเล็กน้อยโดยไม่มีคำแนะนำที่เป็นรูปธรรมเกี่ยวกับวิธีการใช้แบบจำลอง AI หรือผลกระทบทางสังคมที่ดีที่สุด
ในการแสวงหาของ บริษัท เทคโนโลยีสำหรับ AGI ประชาชนได้รับมอบหมายให้นำทางภูมิทัศน์ที่เต็มไปด้วยการตลาดโฆษณานิยายวิทยาศาสตร์และวิทยาศาสตร์จริง Ben Recht นักวิทยาศาสตร์คอมพิวเตอร์ของมหาวิทยาลัยแคลิฟอร์เนียเบิร์กลีย์กล่าว “ มันกลายเป็นเรื่องยุ่งยากมาก นั่นคือสิ่งที่เราติดอยู่” เขากล่าวอย่างต่อเนื่องเพื่อมุ่งเน้นไปที่การเรียกร้องของ AGI ที่ใกล้เข้ามาเขาอาจทำให้เราเข้าใจเทคโนโลยีที่อยู่ในมือและทำให้เกิดผลกระทบทางสังคมในปัจจุบันของ AI
คำจำกัดความของ agi ไม่ชัดเจน
คำว่า "ข่าวกรองทั่วไปประดิษฐ์" ได้รับการประกาศเกียรติคุณในช่วงกลางศตวรรษที่ 20 ในขั้นต้นมันแสดงถึงคอมพิวเตอร์อิสระที่สามารถทำงานใด ๆ ที่มนุษย์สามารถทำได้รวมถึงการออกกำลังกายเช่นการทำกาแฟสักถ้วยหรือซ่อมรถยนต์
แต่เมื่อความก้าวหน้าในหุ่นยนต์ล้าหลังความคืบหน้าอย่างรวดเร็วของการคำนวณส่วนใหญ่ในสนาม AI เปลี่ยนเป็นคำจำกัดความที่แคบลงของ AGI: ในขั้นต้นสิ่งนี้รวมถึงระบบ AI ที่สามารถทำงานได้อย่างอิสระที่มนุษย์สามารถทำได้ในคอมพิวเตอร์มีค่าทางเศรษฐกิจ” งานที่มนุษย์สามารถจัดการได้ที่คอมพิวเตอร์เช่นการเข้ารหัสและการเขียนร้อยแก้วที่ถูกต้อง คนอื่นคิดว่า AGI ควรครอบคลุมความสามารถในการใช้เหตุผลที่ยืดหยุ่นและเอกราชเมื่อจัดการกับงานที่ไม่ได้ระบุจำนวนหนึ่ง-
“ ปัญหาคือเราไม่รู้ว่าเราต้องการอะไร” Arseny Moskvichev วิศวกรการเรียนรู้ของเครื่องจักรที่อุปกรณ์ไมโครขั้นสูงและนักวิทยาศาสตร์คอมพิวเตอร์ที่สถาบันซานตาเฟกล่าว “ เนื่องจากเป้าหมายมีการกำหนดไว้ไม่ดีจึงไม่มีแผนงานสำหรับการเข้าถึงหรือวิธีที่เชื่อถือได้ในการระบุ”
เพื่อจัดการกับความไม่แน่นอนนี้นักวิจัยได้พัฒนาการทดสอบมาตรฐานคล้ายกับการสอบของนักเรียนเพื่อประเมินว่าระบบใกล้เคียงกับการบรรลุ AGI อย่างไร
ตัวอย่างเช่นในปี 2019 นักวิทยาศาสตร์คอมพิวเตอร์ชาวฝรั่งเศสและอดีตวิศวกร Google Francois Chollet เปิดตัวบทคัดย่อการให้เหตุผลเชิงนามธรรมสำหรับข่าวกรองทั่วไปเทียมหรือ arc-agi ในการทดสอบนี้โมเดล AI จะได้รับตัวอย่างบางส่วนของสี่เหลี่ยมสีที่จัดเรียงในรูปแบบที่แตกต่างกันบนกริด สำหรับแต่ละชุดตัวอย่างแบบจำลองจะถูกขอให้สร้างกริดใหม่เพื่อให้รูปแบบการมองเห็นเสร็จสมบูรณ์ซึ่งเป็นงานที่มีวัตถุประสงค์เพื่อประเมินการใช้เหตุผลที่ยืดหยุ่นและความสามารถของโมเดลในการรับทักษะใหม่นอกการฝึกอบรม การตั้งค่านี้คล้ายกับเมทริกซ์แบบก้าวหน้าของ Raven ซึ่งเป็นการทดสอบการใช้เหตุผลของมนุษย์
ผลการทดสอบเป็นส่วนหนึ่งของสิ่งที่ OpenAI และ บริษัท เทคโนโลยีอื่น ๆ ใช้เพื่อเป็นแนวทางในการพัฒนาแบบจำลองและการประเมิน เมื่อเร็ว ๆ นี้รุ่น O3 ของ Openai ที่เปิดตัวเร็ว ๆ นี้ได้รับการปรับปรุงอย่างมากมายใน ARC-AGI เมื่อเทียบกับโมเดล AI ก่อนหน้านี้ทำให้นักวิจัยบางคนมองว่าเป็นความก้าวหน้าใน AGI คนอื่นไม่เห็นด้วย
“ ไม่มีอะไรเกี่ยวกับส่วนโค้งที่ทั่วไป มันเฉพาะเจาะจงและแปลกมาก” Recht กล่าว
นักวิทยาศาสตร์คอมพิวเตอร์JoséHernández-Orallo ของ Universitat Politécnica de Valènciaในสเปนกล่าวว่าเป็นไปได้ที่อาร์คอากี้เพียงแค่ประเมินความสามารถของแบบจำลองในการจดจำภาพ แบบจำลองภาษารุ่นก่อนหน้าสามารถแก้ปัญหาที่คล้ายกันด้วยความแม่นยำสูงหากอธิบายภาพกริดโดยใช้ข้อความเขากล่าว บริบทนั้นทำให้ผลลัพธ์ของ O3 ดูแปลก ๆ น้อยลง
นอกจากนี้ยังมีการกำหนดค่ากริดจำนวน จำกัด และรุ่น AI บางรุ่นที่มีพลังการคำนวณจำนวนมากในการกำจัดของพวกเขา“ กำลังดุร้าย” สามารถวิธีการแก้ไขคำตอบของพวกเขาง่ายๆโดยการสร้างคำตอบที่เป็นไปได้ทั้งหมดและเลือกคำตอบที่เหมาะสมที่สุด-ลดงานให้เป็นปัญหาแบบปรนัยมากกว่าการให้เหตุผลใหม่
เพื่อจัดการกับงาน Arc-Agi แต่ละงาน O3 ใช้จำนวนมหาศาลกำลังคอมพิวเตอร์ (และเงิน) ในเวลาทดสอบ- การดำเนินงานในโหมดที่มีประสิทธิภาพมีค่าใช้จ่ายประมาณ $ 30 ต่องาน Chollet กล่าว ในการตั้งค่าที่มีประสิทธิภาพน้อยงานหนึ่งอาจมีค่าใช้จ่ายประมาณ $ 3,000 เพียงเพราะโมเดลสามารถการแก้ปัญหาไม่ได้หมายความว่ามันใช้งานได้จริงหรือเป็นไปได้ที่จะใช้งานเป็นประจำกับงานที่ท้าทายในทำนองเดียวกัน
มันไม่ใช่แค่อาร์คกี้ที่เป็นที่ถกเถียงกัน การพิจารณาว่าโมเดล AI นับเป็น AGI นั้นซับซ้อนหรือไม่เนื่องจากข้อเท็จจริงที่ว่าทั้งหมดการทดสอบความสามารถของ AI นั้นมีข้อบกพร่อง เช่นเดียวกับเมทริกซ์ก้าวหน้าของ Raven และการทดสอบ IQ อื่น ๆ เป็นมาตรการที่ไม่สมบูรณ์ของความฉลาดของมนุษย์และเผชิญกับการวิจารณ์อย่างต่อเนื่องสำหรับอคติของพวกเขาเช่นกันการประเมิน AGI เช่นกัน Amelia Hardy นักวิทยาศาสตร์คอมพิวเตอร์ที่มหาวิทยาลัยสแตนฟอร์ดกล่าว “ มันยากมากที่จะรู้ว่าเรากำลังวัด [อะไร] เราสนใจ”
ยกตัวอย่างเช่น Open AI ของ AI ตอบคำถามอย่างถูกต้องมากกว่าหนึ่งในสี่ของคำถามในการรวบรวมปัญหาที่ยากเป็นพิเศษที่เรียกว่าเกณฑ์มาตรฐานคณิตศาสตร์ชายแดนโฆษก บริษัท Lindsay McCallum กล่าว ปัญหาเหล่านี้ใช้เวลาหลายชั่วโมงในการแก้ปัญหาตามผู้สร้างมาตรฐาน บนใบหน้าของมัน O3 ดูเหมือนจะประสบความสำเร็จ แต่ความสำเร็จนี้อาจเกิดจากการระดมทุนของ OpenAI ในการพัฒนามาตรฐานและการมีเข้าถึงชุดข้อมูลการทดสอบในขณะที่พัฒนา O3 การปนเปื้อนข้อมูลดังกล่าวเป็นปัญหาอย่างต่อเนื่องในการประเมินแบบจำลอง AI โดยเฉพาะอย่างยิ่งสำหรับ AGI ซึ่งความสามารถในการพูดคุยและนามธรรมเกินกว่าข้อมูลการฝึกอบรมถือเป็นสิ่งสำคัญ
รุ่น AI สามารถทำงานได้ดีมากในงานที่ซับซ้อนเช่นตอบคำถามวิทยาศาสตร์ระดับปริญญาเอกอย่างถูกต้องในขณะที่ล้มเหลวในสิ่งพื้นฐานมากขึ้นเช่นนับจำนวน R'sใน“ สตรอเบอร์รี่” ความคลาดเคลื่อนนี้บ่งบอกถึงการจัดแนวพื้นฐานในวิธีการที่ระบบคอมพิวเตอร์เหล่านี้ประมวลผลการสอบถามและเข้าใจปัญหา
แต่นักพัฒนา AI ไม่ได้รวบรวมและแบ่งปันข้อมูลประเภทที่อาจช่วยให้นักวิจัยวัดได้ดีขึ้นว่าทำไมHernández-Orallo กล่าว นักพัฒนาหลายคนให้ค่าความถูกต้องเพียงครั้งเดียวสำหรับแต่ละเกณฑ์มาตรฐานซึ่งตรงข้ามกับรายละเอียดของคำถามประเภทใดที่โมเดลตอบอย่างถูกต้องและไม่ถูกต้อง หากไม่มีรายละเอียดเพิ่มเติมมันเป็นไปไม่ได้ที่จะกำหนดว่าแบบจำลองกำลังดิ้นรนทำไมมันถึงประสบความสำเร็จหรือหากผลการทดสอบใด ๆ แสดงให้เห็นถึงความก้าวหน้าในข่าวกรองของเครื่องจักรผู้เชี่ยวชาญกล่าว
แม้ว่าแบบจำลองจะผ่านการทดสอบที่เฉพาะเจาะจงและเชิงปริมาณด้วยสีบินเช่นการสอบบาร์หรือคณะกรรมการการแพทย์David Rein นักวิทยาศาสตร์คอมพิวเตอร์ของการประเมินผลการประเมินแบบจำลองที่ไม่แสวงหาผลกำไรและการวิจัยภัยคุกคามในเมืองเบิร์กลีย์รัฐแคลิฟอร์เนีย
ตัวอย่างเช่นเมื่อถูกขอให้เขียนบทสรุปทางกฎหมายโมเดล AI แบบกำเนิดยังคงสร้างข้อมูลเป็นประจำ แม้ว่าการศึกษาหนึ่งของ GPT-4 ชี้ให้เห็นว่าchatbot สามารถทำได้ดีกว่าแพทย์มนุษย์ในการวินิจฉัยผู้ป่วยการวิจัยที่มีรายละเอียดมากขึ้นพบว่าแบบจำลอง AI ที่เปรียบเทียบได้นั้นแย่กว่าแพทย์จริงมากเมื่อต้องเผชิญกับการทดสอบที่เลียนแบบเงื่อนไขในโลกแห่งความจริง- และไม่มีผลการศึกษาหรือมาตรฐานแสดงให้เห็นว่าแบบจำลอง AI ปัจจุบันควรเป็นการตัดสินใจด้านการกำกับดูแลที่สำคัญมากกว่ามนุษย์ผู้เชี่ยวชาญ
เกณฑ์มาตรฐานที่ OpenAI, Deepseek และ บริษัท อื่น ๆ รายงานผลจาก“ อย่าบอกเราเกี่ยวกับความสามารถในโลกแห่งความเป็นจริง” Rein กล่าวถึงแม้ว่าพวกเขาจะให้ข้อมูลที่สมเหตุสมผลสำหรับการเปรียบเทียบแบบจำลองกับกันและกัน
จนถึงตอนนี้นักวิจัยได้ทดสอบโมเดล AI เป็นส่วนใหญ่โดยการให้ปัญหาที่ไม่ต่อเนื่องที่รู้จักกัน อย่างไรก็ตามมนุษย์ไม่ได้มีความหรูหราในการรู้ว่าปัญหาก่อนพวกเขาคืออะไรไม่ว่าจะเป็นการแก้ไขหรือในกรอบเวลาใด ผู้คนสามารถระบุปัญหาที่สำคัญจัดลำดับความสำคัญของงานและอย่างมากรู้ว่าจะยอมแพ้เมื่อใด ยังไม่ชัดเจนเครื่องนั้นสามารถหรือทำ- ตัวแทน“ อิสระ” ที่ทันสมัยที่สุดต่อสู้เพื่อนำทางการสั่งซื้อพิซซ่าหรือร้านขายของชำออนไลน์
ข่าวกรองทั่วไปไม่ได้กำหนดผลกระทบ
รูปแบบภาษาขนาดใหญ่และเครือข่ายประสาทมีในช่วงไม่กี่เดือนที่ผ่านมา “ พวกเขามีประโยชน์อย่างแน่นอนในหลาย ๆ วิธี” Recht กล่าวชี้ไปที่ความสามารถของรุ่นใหม่ในการสรุปและย่อยข้อมูลหรือสร้างรหัสคอมพิวเตอร์ที่ให้บริการได้โดยมีข้อผิดพลาดเล็กน้อย แต่ความพยายามเช่น ARC-AGI ในการวัดความสามารถทั่วไปไม่จำเป็นต้องชี้แจงว่าโมเดล AI สามารถใช้งานได้และไม่สามารถใช้งานได้ “ ฉันไม่คิดว่ามันจะสำคัญว่าพวกเขาจะฉลาดโดยทั่วไปหรือไม่” เขากล่าว
สิ่งที่อาจมีความสำคัญมากขึ้นจากข่าว Deepseek เมื่อเร็ว ๆ นี้คือตัวชี้วัดแบบดั้งเดิมของค่าใช้จ่ายต่องาน ยูทิลิตี้ถูกกำหนดโดยทั้งคุณภาพของเครื่องมือและเครื่องมือนั้นมีราคาไม่แพงพอที่จะปรับขนาดได้หรือไม่ ความฉลาดเป็นเพียงส่วนหนึ่งของสมการ
AGI ควรจะทำหน้าที่เป็นแสงสว่างสำหรับนักพัฒนา AI หากประสบความสำเร็จมันหมายถึงการประกาศจุดเปลี่ยนที่สำคัญสำหรับสังคมนอกเหนือจากที่เครื่องจักรจะทำงานได้อย่างอิสระในฐานรากที่เท่าเทียมกันหรือสูงกว่ามนุษย์ แต่จนถึงตอนนี้ AI มีผลกระทบทางสังคมที่สำคัญทั้งดีและไม่ดีโดยไม่มีฉันทามติว่าเราใกล้เข้ามาแล้ว (หรือผ่านไปแล้ว) จุดเปลี่ยนนี้ Recht, Hernández-Orallo และ Hardy กล่าว
ตัวอย่างเช่นนักวิทยาศาสตร์กำลังใช้เครื่องมือ AI- แต่ในห้องเรียนทั่วโลก chatbots generative ได้ขัดขวางการประเมิน การสำรวจศูนย์วิจัยพิวเมื่อเร็ว ๆ นี้พบว่าวัยรุ่นสหรัฐฯมากขึ้นเรื่อย ๆกำลังมอบหมายงานจ้างให้กับ CHATGPT- และการศึกษา 2023 ในธรรมชาติรายงานว่าการเพิ่มความช่วยเหลือ AI ในหลักสูตรมหาวิทยาลัยได้ทำขึ้นการโกงยากที่จะตรวจจับ-
ที่จะบอกว่า AI จะกลายเป็นการเปลี่ยนแปลงเมื่อเราไปถึง Agi ไม่สนใจต้นไม้ทั้งหมดสำหรับป่า