數學家難倒了最先進的生成式(人工智慧)模型具有一系列令人費解的新數學問題。
該研究所表示,這些問題通常需要博士級數學家花費數小時到數天的時間來解決時代人工智慧。但在新的測試中,市場上最先進的人工智慧模型對其中不到 2% 的問題給出了正確答案。
在過去的十年中,已經開發了許多人工智慧測試來確定這些模型返回的答案是否真正正確。在許多情況下,人工智慧模型現在可以輕鬆通過這些基準。
例如,在常用的測量大規模多任務語言理解(MMLU)基準測試中,當今的人工智慧模型正確回答了 98% 的數學問題。
Epoch AI 的數學家 Elliot Glazer 及其同事在預印本資料庫上發布的一篇新論文中寫道,這些基準測試大多數都是為了測試人工智慧進行高中和大學水平數學的能力arXiv。 (該論文尚未經過同行評審或在科學期刊上發表。)
有關的:
稱為 FrontierMath 的新基準測試集旨在實現更高水平的推理。 Epoch AI 在數學教授的幫助下開發了這些問題,其中包括一些菲爾茲獎得主,菲爾茲獎可能是數學界最負盛名的獎項。這些問題涵蓋了從數論到代數幾何的廣泛子領域,並且可以在Epoch AI 網站。
「這些都極具挑戰性,」2006 年菲爾茲獎得主陶哲軒加州大學洛杉磯分校的數學家在 Epoch AI 的問題評論中寫道。 「我認為,在短期內,基本上解決這些問題的唯一方法是缺乏該領域真正的領域專家,而是由相關領域的研究生等半專家組成,也許與某種組合相結合現代人工智慧和許多其他代數包的一部分。
這些問題也很獨特——採取這一步驟是為了確保人工智慧模型的訓練資料中不存在任何問題。當訓練資料中包含複雜的推理問題時,人工智慧可能看起來可以解決問題,但實際上,它已經有了一張“備忘單”,因為它已經接受了答案的訓練。
研究人員測試了六種最先進的人工智慧模型:Google 的 Gemini 1.5 Pro (002)、Anthropic 的 Claude 3.5 Sonnet、OpenAI 的 o1-preview、o1-mini 以及 GPT4o 和 xAI 的 Grok-2 Beta。 Gemini 和 Claude 成功解決了 2%,僅比 o1-preview、o1-mini 和 GPT-4o 的 1% 稍好一些。 Grok-2 Beta 未能解決任何問題。
然而,研究人員警告說,這些排名具有誤導性,因為成功率低意味著單一正確答案可能會對每個模型的總體得分產生巨大影響。
「即使模型獲得了正確的答案,這並不意味著它的推理是正確的,」論文作者寫道。 「例如,對於其中一個問題,運行一些簡單的模擬就足以做出準確的猜測,而無需任何更深入的數學理解。然而,模型的整體準確性較低,表明這種猜測策略不適用於絕大多數FrontierMath 問題。
Epoch AI 的合作者總結道,研究結果表明,目前人工智慧模型不具備研究水平的數學推理能力。然而,隨著人工智慧模型的進步,這些基準測試將提供一種方法來了解它們的推理能力是否正在加深。
團隊在聲明中寫道:“透過定期評估最先進的模型並與人工智慧研究社群合作,我們的目標是加深對人工智慧能力和局限性的理解。”