ผ่อนคลายทุกคน หุ่นยนต์วิบัติถูกเลื่อนออกไปอีกวัน

น่าสังเกตว่าปัญหาคณิตศาสตร์นั้นยากมาก
เครดิตรูปภาพ: Cranium_Soul/Shutterstock.com
ในขณะที่ AI อาจจะถูกใช้กันทั่วไปมากกว่าขโมยงานศิลปะและพล่ามประสาทหลอนอย่างไรก็ตาม นั่นเป็นศัพท์ทางเทคนิค ในช่วงสองสามปีที่ผ่านมาเราได้เห็นสิ่งที่ดูเหมือนจะเป็นความสำเร็จที่พิเศษอย่างแท้จริงจากเทคโนโลยีที่เพิ่งเกิดใหม่ และนั่นเป็นเรื่องจริงโดยเฉพาะอย่างยิ่งในสาขาคณิตศาสตร์ ซึ่งครั้งหนึ่งคอมพิวเตอร์เคยถูกจำกัดอยู่ในหมวดหมู่ของเครื่องมือทื่อแรงทุกวันนี้พวกเขาไม่เพียงแต่สามารถทำได้เท่านั้นแต่ทำได้ทั้งหมดของพวกเขาเอง
แต่พวกเขาฉลาดแค่ไหนจริงเหรอ? ในรายงานฉบับใหม่ นักคณิตศาสตร์ผู้เชี่ยวชาญได้กำหนดความท้าทายใหม่สำหรับโปรแกรม AI ระดับสูงในปัจจุบัน ผลลัพธ์? ความล้มเหลวของวัตถุ
“ระบบ AI ล่าสุดได้แสดงให้เห็นถึงความสามารถที่โดดเด่นในการจัดการกับงานทางคณิตศาสตร์ที่ท้าทาย จากการบรรลุประสิทธิภาพระดับโอลิมปิกในเรขาคณิตไปจนถึงการปรับปรุงผลการวิจัยที่มีอยู่ในวิชาเชิงผสม” เริ่มต้นรายงานซึ่งปัจจุบันเผยแพร่บนเซิร์ฟเวอร์ ArXiv preprint “อย่างไรก็ตาม เกณฑ์มาตรฐานที่มีอยู่ต้องเผชิญกับข้อจำกัดบางประการ”
ตัวอย่างเช่น ผู้เขียนเขียนไว้ แม้ว่าจะเป็นเรื่องที่น่าประทับใจอย่างยิ่งที่ระบบ AI สามารถรับมือกับความท้าทายเช่นนี้ได้ชุดปัญหา GSM8Kหรือทั้งสองอย่างไม่ใช่คณิตศาสตร์ที่ล้ำสมัยเสียทีเดียว พวกมันเหมือนกับระดับ "มัธยมศึกษาตอนปลาย" มากกว่า "ขีดจำกัดของการประดิษฐ์ของมนุษย์"
ยิ่งไปกว่านั้น - และยังชวนให้นึกถึงคณิตศาสตร์ระดับมัธยมปลายอีกด้วย - เรายังขาดสิ่งที่ต้องถามโปรแกรม AI ต่างๆ ของเรา “ความท้าทายที่สำคัญในการประเมินแบบจำลองภาษาขนาดใหญ่ (LLM) คือการปนเปื้อนของข้อมูล” ผู้เขียนอธิบาย หรืออีกนัยหนึ่งคือ “การรวมปัญหาเกณฑ์มาตรฐานไว้ในข้อมูลการฝึกอบรมโดยไม่ได้ตั้งใจ”
เช่นเดียวกับนักเรียนที่ทำแบบทดสอบ พวกเขาเห็นคำตอบอยู่แล้ว “ปัญหานี้นำไปสู่การวัดผลการปฏิบัติงานที่สูงเกินจริงซึ่งปิดบังความสามารถในการให้เหตุผลที่แท้จริงของแบบจำลอง” พวกเขาเขียน
วิธีแก้ปัญหา: FrontierMath – ทีมงานอธิบายว่าเป็น “เกณฑ์มาตรฐานของปัญหาทางคณิตศาสตร์ดั้งเดิมที่ท้าทายเป็นพิเศษ ซึ่งสร้างขึ้นโดยความร่วมมือกับนักคณิตศาสตร์มากกว่า 60 คนจากสถาบันชั้นนำ” ไม่ใช่การโอ้อวดที่ว่างเปล่า: มีผู้ชนะ Fields Medal หลายรายที่เกี่ยวข้องกับโครงการนี้ รวมถึงผู้ที่มีส่วนทำให้เกิดปัญหากับชุดข้อมูล การทดสอบอื่นๆ มาจากนักคณิตศาสตร์ระดับบัณฑิตศึกษาขึ้นไปจากมหาวิทยาลัยทั่วโลก
ปัญหาที่ส่งมาต้องเป็นไปตามเกณฑ์สี่ประการ: ต้องเป็นต้นฉบับ – เพื่อ “[รับรอง] ว่าการแก้ปัญหานั้นต้องใช้ความเข้าใจทางคณิตศาสตร์อย่างแท้จริง แทนที่จะจับคู่รูปแบบกับปัญหาที่ทราบ” เอกสารอธิบาย พวกเขาต้องเดาได้ พวกเขาจะต้อง "สามารถเข้าใจได้ง่ายด้วยคอมพิวเตอร์" นั่นคือพวกเขาจะต้องค่อนข้างตรงไปตรงมาถ้าคุณรู้ว่าคุณกำลังทำอะไรอยู่ และต้องตรวจสอบได้อย่างรวดเร็วและอัตโนมัติ เมื่อทำเครื่องหมายในช่องเหล่านี้ทั้งหมดแล้ว คำถามต่างๆ จะได้รับการตรวจสอบโดยผู้ทรงคุณวุฒิ จัดอันดับความยาก และจัดการอย่างปลอดภัยเพื่อป้องกันการปนเปื้อนของชุดข้อมูล
กล่าวอีกนัยหนึ่งไม่ใช่ความสำเร็จเล็กๆ น้อยๆ แต่โปรแกรม AI ในปัจจุบันจะเอาชนะได้หรือไม่
ก็…ไม่ “โมเดล AI ที่ล้ำสมัยในปัจจุบันแก้ปัญหาได้น้อยกว่า 2 เปอร์เซ็นต์” ผู้เขียนเขียน “เผยให้เห็นช่องว่างขนาดใหญ่ระหว่างความสามารถของ AI และความกล้าหาญของชุมชนคณิตศาสตร์”
ตอนนี้ AI ไม่ควรทำให้เรื่องนี้ยากเกินไป – ปัญหาต่างๆคือยากมาก. "[พวกเขา] เป็นสิ่งที่ท้าทายอย่างยิ่ง" เทอเรนซ์ เทา ผู้ชนะรางวัล Fields Medal กล่าว โดยต้องการข้อมูลการฝึกอบรมที่ครอบคลุม ซึ่งในทางปฏิบัติ "แทบจะไม่มีเลย"
แต่มันก็หมายความว่าอย่างน้อยตอนนี้ชุดข้อมูล FrontierMath นั้นถูกยกขึ้นโดย petard ของมันเอง “โมเดล AI ในปัจจุบันไม่สามารถแก้ปัญหาได้แม้แต่น้อยในเกณฑ์มาตรฐานของเรา” ผู้เขียนเขียน “แม้ว่าสิ่งนี้จะแสดงให้เห็นถึงระดับความยากสูงของปัญหาของเรา แต่มันก็จำกัดประโยชน์ของ FrontierMath ชั่วคราวในการประเมินประสิทธิภาพสัมพัทธ์ของแบบจำลอง”
“อย่างไรก็ตาม เราคาดหวังว่าข้อจำกัดนี้จะได้รับการแก้ไขเมื่อระบบ AI ดีขึ้น” พวกเขากล่าวเสริม
เอกสารซึ่งรวมถึงปัญหาตัวอย่างและวิธีแก้ปัญหาจากชุดข้อมูลคือเผยแพร่บนเซิร์ฟเวอร์ก่อนการพิมพ์ ArXiv-