นักคณิตศาสตร์ได้นิ่งงันที่สุด(AI) โมเดลที่มีปัญหาทางคณิตศาสตร์ใหม่ที่น่าสนใจ
ปัญหาเหล่านี้มักจะต้องใช้นักคณิตศาสตร์ระดับปริญญาเอกชั่วโมงในการแก้ปัญหาหลายชั่วโมงตามสถาบันวิจัยยุค AI- แต่ในการทดสอบใหม่โมเดล AI ขั้นสูงที่สุดในตลาดได้รับคำตอบที่ถูกต้องในปัญหาเหล่านี้น้อยกว่า 2%
ในทศวรรษที่ผ่านมาการทดสอบ AI จำนวนหนึ่งได้รับการพัฒนาขึ้นเพื่อตรวจสอบว่าคำตอบของโมเดลเหล่านี้กลับถูกต้องจริงหรือไม่ ในหลายกรณีตอนนี้โมเดล AI ส่งผ่านมาตรฐานเหล่านี้
ตัวอย่างเช่นในการทดสอบเกณฑ์มาตรฐานการทำความเข้าใจภาษามัลติทาสก์ขนาดใหญ่ที่ใช้กันทั่วไป
เกณฑ์มาตรฐานเหล่านี้ส่วนใหญ่มุ่งเน้นไปที่การทดสอบความสามารถของ AI ในการทำคณิตศาสตร์ระดับมัธยมปลายและระดับวิทยาลัย Elliot Glazer นักคณิตศาสตร์ที่ Epoch AI และเพื่อนร่วมงานเขียนไว้ในบทความใหม่ที่โพสต์บนฐานข้อมูล Preprintarxiv- (กระดาษยังไม่ได้รับการตรวจสอบโดยเพื่อนหรือตีพิมพ์ในวารสารวิทยาศาสตร์)
ที่เกี่ยวข้อง:
ชุดเกณฑ์มาตรฐานใหม่ที่เรียกว่า FrontierMath มีจุดมุ่งหมายเพื่อให้มีการใช้เหตุผลในระดับที่สูงขึ้น Epoch AI ได้พัฒนาคำถามด้วยความช่วยเหลือของอาจารย์คณิตศาสตร์รวมถึงผู้ชนะบางคนของ Medal The Fields ซึ่งอาจเป็นรางวัลที่มีชื่อเสียงที่สุดในวิชาคณิตศาสตร์ ปัญหานี้ครอบคลุมสนามย่อยที่หลากหลายตั้งแต่ทฤษฎีจำนวนไปจนถึงเรขาคณิตพีชคณิตและมีให้บริการเว็บไซต์ของ Epoch AI-
"สิ่งเหล่านี้เป็นสิ่งที่ท้าทายอย่างยิ่ง" ผู้ชนะเหรียญปี 2549เทอเรนซ์เต่านักคณิตศาสตร์ที่ UCLA เขียนในการทบทวนปัญหาสำหรับ Epoch AI "ฉันคิดว่าในระยะเวลาอันใกล้โดยพื้นฐานแล้ววิธีเดียวที่จะแก้ปัญหาพวกเขาสั้น ๆ ของการมีผู้เชี่ยวชาญโดเมนจริงในพื้นที่คือการรวมกันของกึ่งผู้เชี่ยวชาญเหมือนนักศึกษาระดับบัณฑิตศึกษาในสาขาที่เกี่ยวข้อง ของ AI ที่ทันสมัยและแพ็คเกจพีชคณิตอื่น ๆ อีกมากมาย "
ปัญหายังไม่ซ้ำกัน - ขั้นตอนที่ดำเนินการเพื่อให้แน่ใจว่าไม่มีปัญหาใดที่อยู่ในข้อมูลการฝึกอบรมของโมเดล AI อยู่แล้ว เมื่อปัญหาการใช้เหตุผลที่ซับซ้อนรวมอยู่ในข้อมูลการฝึกอบรม AI อาจปรากฏขึ้นเพื่อแก้ปัญหา แต่ในความเป็นจริงมันมี "แผ่นโกง" อยู่แล้วเนื่องจากได้รับการฝึกฝนเกี่ยวกับคำตอบ
นักวิจัยได้ทดสอบโมเดล AI ที่ทันสมัยหกแบบ: Gemini 1.5 Pro (002) ของ Google, Claude 3.5 Sonnet ของมานุษยวิทยา, Openai ของ OpenAi, O1-Preview, O1-Mini และ GPT4O และ GROK-2 ของ XAI ราศีเมถุนและ Claude สามารถแก้ปัญหาได้ 2%ซึ่งดีกว่าการแสดงจาก O1-Preview, O1-MINI และ GPT-4O 1%เล็กน้อย GROK-2 เบต้าล้มเหลวในการได้รับปัญหาใด ๆ ที่ถูกต้อง
อย่างไรก็ตามการจัดอันดับเหล่านี้ทำให้เข้าใจผิดเนื่องจากอัตราความสำเร็จต่ำหมายความว่าคำตอบที่ถูกต้องเดียวอาจส่งผลกระทบต่อคะแนนโดยรวมของแต่ละรุ่นนักวิจัยเตือน
"[e] ven เมื่อโมเดลได้รับคำตอบที่ถูกต้องนี่ไม่ได้หมายความว่าการใช้เหตุผลนั้นถูกต้อง" ผู้เขียนกระดาษเขียน "ตัวอย่างเช่นหนึ่งในปัญหาเหล่านี้การจำลองแบบง่าย ๆ ไม่กี่อย่างเพียงพอที่จะคาดเดาได้อย่างแม่นยำโดยไม่มีความเข้าใจทางคณิตศาสตร์ที่ลึกซึ้งยิ่งขึ้นอย่างไรก็ตามความแม่นยำโดยรวมของแบบจำลองต่ำแสดงให้เห็นว่ากลยุทธ์การคาดเดาดังกล่าวไม่ได้ทำงานกับปัญหาส่วนใหญ่ที่ท่วมท้น"
ผลการวิจัยแสดงให้เห็นว่าตอนนี้โมเดล AI ไม่ได้มีการใช้เหตุผลทางคณิตศาสตร์ระดับการวิจัยผู้ทำงานร่วมกันของ Epoch AI ได้สรุป อย่างไรก็ตามเมื่อโมเดล AI ล่วงหน้าการทดสอบเกณฑ์มาตรฐานเหล่านี้จะเป็นวิธีในการตรวจสอบว่าความสามารถในการใช้เหตุผลของพวกเขานั้นลึกซึ้งยิ่งขึ้นหรือไม่
"โดยการประเมินแบบจำลองที่ล้ำสมัยและร่วมมือกับชุมชนการวิจัย AI เป็นประจำ" ทีมเขียนในแถลงการณ์ "เรามุ่งมั่นที่จะเข้าใจความสามารถและข้อ จำกัด ของ AI ให้ลึกซึ้งยิ่งขึ้น"