Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

數學家設計了新的問題來挑戰高級人工智能的推理能力——但他們幾乎沒有通過所有測試

  • 2024-11-19
  • Armanda
研究人員根據新基準測試了六種最先進的人工智能模型,單個系統的最佳成績為 2%。 (圖片來源:hh5800/Getty Images)

數學家們難倒了最先進的生成式(人工智能)模型具有一系列令人費解的新數學問題。

該研究所表示,這些問題通常需要博士級數學家花費數小時到數天的時間來解決時代人工智能。但在新的測試中,市場上最先進的人工智能模型對其中不到 2% 的問題給出了正確答案。

例如,在常用的測量大規模多任務語言理解(MMLU)基準測試中,當今的人工智能模型正確回答了 98% 的數學問題。

Epoch AI 的數學家 Elliot Glazer 及其同事在預印本數據庫上發布的一篇新論文中寫道,這些基準測試大多數都是為了測試人工智能進行高中和大學水平數學的能力arXiv。 (該論文尚未經過同行評審或在科學期刊上發表。)

有關的:

稱為 FrontierMath 的新基準測試集旨在實現更高水平的推理。 Epoch AI 在數學教授的幫助下開發了這些問題,其中包括一些菲爾茲獎獲得者,菲爾茲獎可能是數學界最負盛名的獎項。這些問題涵蓋了從數論到代數幾何的廣泛子領域,並且可以在Epoch AI 網站。

“這些都極具挑戰性,”2006 年菲爾茲獎得主陶哲軒加州大學洛杉磯分校的數學家在 Epoch AI 的問題評論中寫道。 “我認為,在短期內,基本上解決這些問題的唯一方法是缺乏該領域真正的領域專家,而是由相關領域的研究生等半專家結合起來,也許與現代人工智能和許多其他代數包的某種組合相結合。”

這些問題也很獨特——採取這一步驟是為了確保人工智能模型的訓練數據中不存在任何問題。當訓練數據中包含複雜的推理問題時,人工智能可能看起來可以解決問題,但實際上,它已經有了一張“備忘單”,因為它已經接受了答案的訓練。

研究人員測試了六種最先進的人工智能模型:Google 的 Gemini 1.5 Pro (002)、Anthropic 的 Claude 3.5 Sonnet、OpenAI 的 o1-preview、o1-mini 以及 GPT4o 和 xAI 的 Grok-2 Beta。 Gemini 和 Claude 成功解決了 2%,僅比 o1-preview、o1-mini 和 GPT-4o 的 1% 稍好一些。 Grok-2 Beta 未能解決任何問題。

然而,研究人員警告說,這些排名具有誤導性,因為成功率低意味著單個正確答案可能會對每個模型的總體得分產生巨大影響。

“即使模型獲得了正確的答案,這並不意味著它的推理是正確的,”論文作者寫道。 “例如,對於其中一個問題,運行一些簡單的模擬就足以做出準確的猜測,而無需任何更深入的數學理解。然而,模型的整體準確性較低,表明這種猜測策略不適用於絕大多數 FrontierMath 問題。”

Epoch AI 的合作者總結道,研究結果表明,目前人工智能模型不具備研究水平的數學推理能力。然而,隨著人工智能模型的進步,這些基準測試將提供一種方法來了解它們的推理能力是否正在加深。

該團隊在聲明中寫道:“通過定期評估最先進的模型並與人工智能研究社區合作,我們的目標是加深對人工智能能力和局限性的理解。”

相關貼文

在桌面跑步機協議下:上班時省錢和鍛煉

在桌面跑步機協議下:上班時省錢和鍛煉

宇宙會停止擴展嗎?新理論提出了宇宙的“關閉開關”

宇宙會停止擴展嗎?新理論提出了宇宙的“關閉開關”

表觀遺傳學研究發現,精子細胞帶有童年壓力的痕跡

表觀遺傳學研究發現,精子細胞帶有童年壓力的痕跡

“星球遊行”照片在地球上捕獲了7個行星

“星球遊行”照片在地球上捕獲了7個行星

“我遇到了永遠找不到任何東西的恐怖”:AI藝術的Hollowness證明機器永遠無法模仿真正的人類智慧

“我遇到了永遠找不到任何東西的恐怖”:AI藝術的Hollowness證明機器永遠無法模仿真正的人類智慧

歐幾里得太空望遠鏡揭示了“黑暗宇宙”中2600萬個星系的數據的“寶庫”

歐幾里得太空望遠鏡揭示了“黑暗宇宙”中2600萬個星系的數據的“寶庫”

2.7億年前的「幽靈」血統劍齒食肉動物看起來像一隻禿頭狗

2.7億年前的「幽靈」血統劍齒食肉動物看起來像一隻禿頭狗

爆炸性「炸彈旋風」以高達 100 英里/小時的風速襲擊英國和愛爾蘭

爆炸性「炸彈旋風」以高達 100 英里/小時的風速襲擊英國和愛爾蘭

Evolution 新聞、專題和文章

Evolution 新聞、專題和文章

熱門閱讀

  • 新型穿戴科技能否積極促進您的心理健康? 2025-01-09
  • 人工智慧智慧食品乾燥技術提高產品品質和效率 2025-01-07
  • Covid-19 開創了可以改變醫學的疫苗新時代 2024-12-26
  • 離開非洲後,早期的人類血液群體發生了變化 2025-02-07
  • 好奇心驅動的實驗有助於解開抗生素抗藥性之謎 2025-01-23
  • “羊毛老鼠”只是一個開始。去勢仍然面臨許多障礙 2025-03-28
  • 適合好奇心的世界各地令人驚嘆的科學之旅、遊輪和探險。 2025-03-11
  • 我們終於學習了圍絕經期如何深刻地改變大腦 2025-03-16
  • 人類為何進化出大大腦?一個新想法預示著我們的未來 2025-01-29
  • 美國軍方的迷你航天飛機X-37B在繞行434天后返回地球 2025-03-08

上升趨勢

  • 外星人生活的最有力的證據尚未發現124光年 2025-04-17
  • 這不是iPad,但性能很瘋狂,價格便宜2倍 2025-04-18
  • Android 16(Beta)到達新智能手機:完整列表 2025-04-18
  • iPhone增加了生產,三星取出香檳 2025-04-18
  • 它將像熱門蛋糕一樣銷售:Redmi Note 14 Pro以令人難以置信的價格( 2025-04-18
  • 這款功能強大的大型口袋PC比Mac Mini便宜2倍,是一台Dinguerie😱 2025-04-18
  • 對於Google,Pixel 9a與庸俗的iPhone不可媲美16 2025-04-18
  • Intel Core i9,24 GB的RAM,SSD 1 TO TO,此迷你PC Bmax以微不足道的價格是一個純粹的掘金 2025-04-18
  • 地球水的起源可能不像我們想像的那麼複雜 2025-04-17
  • 高速公路上的150 km/h在AI幫助下,這是合理的嗎? 2025-04-18

最近發布

  • 如何刪除 iPhone 上的下載:5 種方法 2024-03-07
  • 2024 年 11 月最佳儲蓄帳戶利率 2024-11-08
  • 使用儀表板以前所未有的方式探索您的狀態 2025-02-28
  • 如何啟用 Active Directory 回收站 2024-08-30
  • 贏得奧斯卡獎的演員演奏現實生活中的音樂家 2025-02-28
  • 由於電子技術銷售下滑,巴菲特最喜歡的 Heico 股票下跌 2024-12-08
  • 阿里巴巴公佈AI型Qwen2.5-max,聲稱它超過了DeepSeek-V3 2025-01-29
  • 2024 年 11 月最優惠 CD 價格 2024-11-15
  • 2024 年 11 月最優惠 CD 價格 2024-10-27
  • 小勞勃道尼漫威復出的預期薪水超乎你的想像 2025-01-27

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜