ใครจะคิดว่าแม้รวมอยู่ในการเปรียบเทียบ AI หรือไม่? ผู้ผลิต Chatbot ใช้ "Pokémon" เพื่อทดสอบเพื่อดูความคืบหน้าของ AI ในเกม
โพสต์ไวรัสเมื่อเร็ว ๆ นี้ใน X อ้างว่า Gemini AI ของ Google มีประสิทธิภาพสูงกว่าโมเดล Claude ของมนุษย์ในขณะที่เล่นเกมไตรภาคเกมโปเกมอนดั้งเดิม มีรายงานว่าราศีเมถุนได้ก้าวเข้าสู่เมืองลาเวนเดอร์ในลำธาร Twitch ในขณะที่ Claude ยังคงต่อสู้ผ่าน Mount Moon ในเดือนกุมภาพันธ์ แต่มีเรื่องราวมากกว่านี้
การเพิ่มที่กำหนดเองของ Google Gemini เพิ่มคิ้ว
ในขณะที่การเรียกร้องของไวรัสกระตุ้นความตื่นเต้น แต่ก็ออกจากรายละเอียดที่สำคัญ: ราศีเมถุนมีขาขึ้น ตามสีแดงผู้ใช้ผู้พัฒนาสตรีมการจัดการสตรีมของราศีเมถุนใช้แผนที่มินิแบบกำหนดเอง การเพิ่มที่ชาญฉลาดนี้ทำให้แชทบ็อตสามารถระบุองค์ประกอบการเล่นเกมที่สำคัญเช่นต้นไม้ที่มีความสามารถพิเศษโดยไม่ต้องพึ่งพาการวิเคราะห์ภาพหน้าจอเพียงอย่างเดียว
น่าเสียดาย,หลุดออกไปเพราะมันไม่มีการเร่งความเร็วที่คล้ายกัน การขาดโรคเอดส์เช่นนี้วิวัฒนาการการเล่นเกมของ Claude นั้นเป็นเรื่องของการถอดรหัสภาพดิบซึ่งเป็นงานที่ท้าทายกว่า
techcrunchรายงานว่าความแตกต่างนี้ชี้ไปที่ปัญหาที่เพิ่มขึ้นในการเปรียบเทียบ AI: สภาพแวดล้อมการทดสอบที่ไม่น่าเชื่อถือที่แปรปรวนประสิทธิภาพการวัด
ทำไม 'Pokémon' จึงถูกใช้ในมาตรฐาน AI
ในขณะที่ "Pokémon" ไม่ใช่เกณฑ์มาตรฐานที่ร้ายแรงสำหรับการทดสอบ AI แต่มันก็เป็นเรื่องสนุก-แม้ว่าจะมีข้อบกพร่องในการแสดงประสิทธิภาพของ AI และการเลือกทางเลือก กระนั้นก็ยังบ่งบอกว่าผลลัพธ์การเปรียบเทียบที่อ่อนไหวมากเพียงใดในการปรับเปลี่ยนการดำเนินการ
ตัวอย่างเช่น Claude 3.7 Sonnet Model ของมานุษยวิทยาลงทะเบียนแล้วสองคะแนนที่แตกต่างกันไปตามเกณฑ์มาตรฐานที่ตรวจสอบแล้วซึ่งประเมินความสามารถในการเข้ารหัส หากไม่มีความช่วยเหลือในการปรับปรุงมันทำคะแนนได้ 62.3% แต่ด้วยระบบ "นั่งร้าน" แบบ bespoke ที่สร้างขึ้นโดยมานุษยวิทยามันเพิ่มสูงขึ้นเป็น 70.3%
"ฉันเห็นด้วยและจำนวนความคืบหน้าที่เกิดขึ้นที่นี่แสดงให้เห็นว่าความทรงจำมีความสำคัญฉันรู้ว่ามนุษย์ส่วนใหญ่จะไม่สามารถจดจำพิกเซลทุกพิกเซลของทุกเมือง/เมือง/เส้นทาง/ถ้ำที่พวกเขาอยู่ในขณะที่เล่นเกม โพสต์เขียน
"ใช่คณะการทำแผนที่เป็นฟังก์ชั่นที่จำเป็น 100% ในการเดินทางไปทั่วโลกคิดเสมอว่ามันเป็นปัญหาที่ยิ่งใหญ่ที่สุดที่ DeepMind มีความคืบหน้าเกี่ยวกับ boojum ที่ใหญ่ที่สุด: การแก้แค้นของ Montezuma" ผู้ใช้ Reddit รายอื่นเห็นด้วย
ปัญหาที่ใหญ่กว่า: การเปรียบเทียบ AI ที่มืดมน
มาตรฐานควรเสนอสนามเด็กเล่นระดับที่แตกต่างกันซึ่งจะตัดสินท่ามกลางวิวัฒนาการของ AI แต่ในขณะที่นักพัฒนารวมถึงชิ้นส่วนที่เป็นกรรมสิทธิ์หรือปรับโมเดลของพวกเขาสำหรับการทดสอบเฉพาะทำให้การเปรียบเทียบแอปเปิ้ลกับแอปเปิ้ลเป็นจริงเพิ่มความท้าทายมากขึ้น
เห็นได้ชัดว่ามาตรฐานการแพทย์เหล่านี้บดบังความแตกต่างระหว่างประสิทธิภาพของแบบจำลองที่แท้จริงและการเพิ่มประสิทธิภาพที่ซับซ้อน เป็นที่คาดการณ์ว่าธุรกิจจำนวนมากจะถูกบังคับให้พัฒนาวิธีการเปรียบเทียบที่เปิดกว้างและเป็นมาตรฐานมากขึ้น - หรือเสี่ยงต่อการทำให้ผู้บริโภคนักลงทุนและนักวิจัยเข้าใจผิด