
CHATGPT在基于日历的任务上表现出色。
图片来源:Robert Way/Shutterstock.com
在过去的十年中,人工智能(AI)已经走了很长一段路令人印象深刻的图像生成和文本生成,这使事实在很多时候正确,并且自信地告诉你错误的答案当不能。
但是,有很多任务无法击败人类。例如,图像生成器与,,,,,或一杯充满边缘的葡萄酒。
AI未能击败幼儿的一项任务是阅读时间。
一项新研究的作者补充说:“从事件计划到自主系统,从视觉输入中解释和推理时间的时间至关重要,从事件调度到自主系统至关重要。”
研究人员试图制作可以,模型在理解时钟和日历的基础上挣扎。对于人类而言,这似乎很简单,但对于机器来说并不简单。
该研究作者解释说:“模拟时钟阅读和日历理解涉及复杂的认知步骤:它们需要细粒的视觉识别(例如,时钟手位置,日间布局)和非平凡的数值推理(例如,计算日期偏移),”研究作者解释说。
在尚未经过同行评审的新论文中,英国爱丁堡大学的研究人员测试了七个AI模型,其中有一些与时间相关的简单问题。其中包括从模拟时钟的图像以及带有不同手和数字的时钟上识别时间,以及许多涉及日历的推理任务。
AI在最基本的任务上表现不佳 - 阅读时间 - 少于四分之一的时间获得正确的答案,尤其是在带有罗马数字或风格的手的时钟方面挣扎。例如,显示了一个时钟阅读时间4:00,Openai的聊天GPT-O1猜出了“ 12:15”,而Claude-3.5-S则以“ 11:35”为单位。
在基于日历的任务上,模型的确表现得更好,大约20%的时间差不多。在这里,他们被问到诸如“圣诞节的哪一天?”之类的问题。和“一年的第100个工作日?”。
该团队解释说:“诸如GPT-O1和Claude-3.5之类的封闭源模型在流行的假期中算出开源模型,有可能反映培训数据中的记忆模式。”
"However, accuracy diminishes substantially for lesser-known or arithmetically demanding queries (eg, 153rd day), indicating that performance does not transfer well to offset-based reasoning. The drop is especially evident among smaller or open-source models (MiniCPM, Qwen2-VL-7B, and Llama3.2-Vision), which exhibit near-random performance on less popular or offset-based queries."
根据团队的说法,结果表明,这些模型仍在努力理解和推理,这需要视觉感知,数值计算和结构化的逻辑推断的结合。没有这些领域的改进,实际应用程序(例如调度)可能容易出错。
“今天的AI研究经常强调复杂的推理任务,但具有讽刺意味的是,许多系统在更简单的日常任务方面仍然很挣扎,”爱丁堡信息学院的Aryo Gema和纸上的合着者在一份文章中说。陈述。 “我们的发现表明现在是时候解决这些基本差距了。否则,将AI集成到现实世界中,时间敏感的应用程序可能仍在第11个小时。”
该研究可在预印服务器上使用arxiv。