
CHATGPT在基於日曆的任務上表現出色。
圖片來源:Robert Way/Shutterstock.com
在過去的十年中,人工智能(AI)已經走了很長一段路令人印象深刻的圖像生成和文本生成,這使事實在很多時候正確,並且自信地告訴你錯誤的答案當不能。
但是,有很多任務無法擊敗人類。例如,圖像生成器與,,,,,或一杯充滿邊緣的葡萄酒。
AI未能擊敗幼兒的一項任務是閱讀時間。
一項新研究的作者補充說:“從事件計劃到自主系統,從視覺輸入中解釋和推理時間的時間至關重要,從事件調度到自主系統至關重要。”
研究人員試圖製作可以,模型在理解時鐘和日曆的基礎上掙扎。對於人類而言,這似乎很簡單,但對於機器來說並不簡單。
該研究作者解釋說:“模擬時鐘閱讀和日曆理解涉及復雜的認知步驟:它們需要細粒的視覺識別(例如,時鐘手位置,日間佈局)和非平凡的數值推理(例如,計算日期偏移),”研究作者解釋說。
在尚未經過同行評審的新論文中,英國愛丁堡大學的研究人員測試了七個AI模型,其中有一些與時間相關的簡單問題。其中包括從模擬時鐘的圖像以及帶有不同手和數字的時鐘上識別時間,以及許多涉及日曆的推理任務。
AI在最基本的任務上表現不佳 - 閱讀時間 - 少於四分之一的時間獲得正確的答案,尤其是在帶有羅馬數字或風格的手的時鐘方面掙扎。例如,顯示了一個時鐘閱讀時間4:00,Openai的聊天GPT-O1猜出了“ 12:15”,而Claude-3.5-S則以“ 11:35”為單位。
在基於日曆的任務上,模型的確表現得更好,大約20%的時間差不多。在這裡,他們被問到諸如“聖誕節的哪一天?”之類的問題。和“一年的第100個工作日?”。
該團隊解釋說:“諸如GPT-O1和Claude-3.5之類的封閉源模型在流行的假期中算出開源模型,有可能反映培訓數據中的記憶模式。”
"However, accuracy diminishes substantially for lesser-known or arithmetically demanding queries (eg, 153rd day), indicating that performance does not transfer well to offset-based reasoning. The drop is especially evident among smaller or open-source models (MiniCPM, Qwen2-VL-7B, and Llama3.2-Vision), which exhibit near-random performance on less popular or offset-based queries."
根據團隊的說法,結果表明,這些模型仍在努力理解和推理,這需要視覺感知,數值計算和結構化的邏輯推斷的結合。沒有這些領域的改進,實際應用程序(例如調度)可能容易出錯。
“今天的AI研究經常強調複雜的推理任務,但具有諷刺意味的是,許多系統在更簡單的日常任務方面仍然很掙扎,”愛丁堡信息學院的Aryo Gema和紙上的合著者在一份文章中說。陳述。 “我們的發現表明現在是時候解決這些基本差距了。否則,將AI集成到現實世界中,時間敏感的應用程序可能仍在第11個小時。”
該研究可在預印服務器上使用arxiv。