ปัญญาประดิษฐ์ (AI) มานานกว่าทศวรรษที่ผ่านมาเพื่อสร้างภาพที่น่าประทับใจและการสร้างข้อความซึ่งทำให้ข้อเท็จจริงของมันถูกต้องตลอดเวลาและบอกคำตอบที่ผิดอย่างมั่นใจเมื่อไม่สามารถ
แต่มีงานไม่กี่อย่างที่มนุษย์ไม่สามารถถูกตีได้ ตัวอย่างเช่นเครื่องกำเนิดภาพต่อสู้กับ-หรือไวน์สักแก้วที่เต็มไปด้วยปีก
งานหนึ่งที่ AI ล้มเหลวในการเอาชนะเด็กเล็กกำลังอ่านเวลา
"ความสามารถในการตีความและเหตุผลเกี่ยวกับเวลาจากอินพุตภาพเป็นสิ่งสำคัญสำหรับแอปพลิเคชันในโลกแห่งความเป็นจริงหลายอย่างตั้งแต่การกำหนดเวลาเหตุการณ์ไปจนถึงระบบอิสระ" ผู้เขียนการศึกษาใหม่เขียนเพิ่มเติมว่าแม้ว่าการวิจัย AI นี้ได้มุ่งเน้นไปที่การตรวจจับวัตถุการจับภาพและการทำความเข้าใจฉาก
ในขณะที่นักวิจัยพยายามสร้าง AI ที่ทำได้แบบจำลองต่อสู้กับพื้นฐานของการทำความเข้าใจนาฬิกาและปฏิทิน มันอาจดูง่ายสำหรับมนุษย์ แต่ไม่ใช่สำหรับเครื่องจักร
"โดยเฉพาะอย่างยิ่งการอ่านนาฬิกาแบบอะนาล็อกและความเข้าใจในปฏิทินเกี่ยวข้องกับขั้นตอนการรับรู้ที่ซับซ้อน: พวกเขาต้องการการรับรู้ด้วยภาพที่ละเอียด (เช่นตำแหน่งนาฬิกา, เค้าโครงเซลล์วัน) และการใช้เหตุผลเชิงตัวเลขที่ไม่สำคัญ (เช่นการคำนวณออฟเซ็ตวัน)" ผู้เขียนการศึกษาอธิบาย
ในบทความใหม่ซึ่งยังไม่ได้รับการตรวจสอบโดยเพื่อนนักวิจัยจาก University of Edinburgh ในสหราชอาณาจักรได้ทดสอบแบบจำลอง AI เจ็ดรุ่นพร้อมคำถามง่าย ๆ ที่เกี่ยวข้องกับเวลา สิ่งเหล่านี้รวมถึงการระบุเวลาจากภาพของนาฬิกาอะนาล็อกและบนนาฬิกาที่มีมือและตัวเลขที่แตกต่างกันรวมถึงงานการใช้เหตุผลจำนวนมากที่เกี่ยวข้องกับปฏิทิน
AIS ไม่ทำงานได้ดีกับงานพื้นฐานที่สุด - อ่านเวลา - ได้รับคำตอบที่ถูกต้องน้อยกว่าหนึ่งในสี่ของเวลาและการดิ้นรนโดยเฉพาะอย่างยิ่งกับนาฬิกาที่มีตัวเลขโรมันหรือมือที่มีสไตล์ ตัวอย่างเช่นแสดงนาฬิกาที่อ่านเวลา 4:00 น. แชท GPT-O1 ของ Openai เดาว่า "12:15" ในขณะที่ Claude-3.5-S เอาถ่อกับ "11:35"
ในงานตามปฏิทินโมเดลนั้นทำงานได้ดีขึ้นเล็กน้อยโดยได้รับคำตอบที่ผิดประมาณ 20 เปอร์เซ็นต์ของเวลา ที่นี่พวกเขาถูกถามคำถามเช่น "วันไหนของสัปดาห์คริสต์มาส" และ "วันธรรมดาวันไหนคือวันที่ 100 ของปี?"
"โมเดลที่มีแหล่งปิดเช่น GPT-O1 และ Claude-3.5 Outshine Open-Source ในช่วงวันหยุดยอดนิยมซึ่งอาจสะท้อนให้เห็นถึงรูปแบบที่จดจำในข้อมูลการฝึกอบรม" ทีมอธิบาย
"อย่างไรก็ตามความแม่นยำลดลงอย่างมีนัยสำคัญสำหรับการสืบค้นที่ไม่ค่อยมีใครรู้จักหรือมีคณิตศาสตร์ (เช่นวันที่ 153) แสดงให้เห็นว่าการแสดงไม่ได้ถ่ายโอนได้ดีไปยังการใช้เหตุผลแบบชดเชยการลดลงโดยเฉพาะอย่างยิ่งในรุ่นที่มีขนาดเล็กหรือโอเพ่นซอร์ส
ตามที่ทีมงานระบุว่าโมเดลเหล่านี้ยังคงดิ้นรนกับความเข้าใจและการใช้เหตุผลในเวลาซึ่งต้องการการรวมกันของการรับรู้ด้วยภาพการคำนวณเชิงตัวเลขและการอนุมานเชิงตรรกะที่มีโครงสร้าง หากไม่มีการปรับปรุงในพื้นที่เหล่านี้แอปพลิเคชันในโลกแห่งความเป็นจริงเช่นการกำหนดเวลาอาจเป็นข้อผิดพลาดได้ง่าย
“ การวิจัย AI ในวันนี้มักจะเน้นงานการใช้เหตุผลที่ซับซ้อน แต่ระบบหลายระบบยังคงดิ้นรนเมื่อพูดถึงงานที่ง่ายขึ้นทุกวัน” Aryo Gema จากโรงเรียนสารสนเทศของเอดินเบอระคำแถลง- "การค้นพบของเราชี้ให้เห็นว่ามันเป็นเวลาสูงที่เราได้กล่าวถึงช่องว่างพื้นฐานเหล่านี้มิฉะนั้นการรวม AI เข้ากับแอปพลิเคชันที่มีความไวต่อเวลาในโลกแห่งความเป็นจริงอาจยังคงติดอยู่ในชั่วโมงที่สิบเอ็ด"
การศึกษามีอยู่บนเซิร์ฟเวอร์พิมพ์ล่วงหน้าarxiv-