Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

数学家设计了新的问题来挑战高级人工智能的推理能力——但他们几乎没有通过所有测试

  • 2024-11-19
  • Armanda
研究人员根据新基准测试了六种最先进的人工智能模型,单个系统的最佳成绩为 2%。 (图片来源:hh5800/Getty Images)

数学家们难倒了最先进的生成式(人工智能)模型具有一系列令人费解的新数学问题。

该研究所表示,这些问题通常需要博士级数学家花费数小时到数天的时间来解决时代人工智能。但在新的测试中,市场上最先进的人工智能模型对这些问题的正确答案不到 2%。

例如,在常用的测量大规模多任务语言理解(MMLU)基准测试中,当今的人工智能模型正确回答了 98% 的数学问题。

Epoch AI 的数学家 Elliot Glazer 及其同事在预印本数据库上发布的一篇新论文中写道,这些基准测试大多数都是为了测试人工智能进行高中和大学水平数学的能力arXiv。 (该论文尚未经过同行评审或在科学期刊上发表。)

有关的:

称为 FrontierMath 的新基准测试集旨在实现更高水平的推理。 Epoch AI 在数学教授的帮助下开发了这些问题,其中包括一些菲尔兹奖获得者,菲尔兹奖可能是数学界最负盛名的奖项。这些问题涵盖了从数论到代数几何的广泛子领域,并且可以在Epoch AI 网站。

“这些都极具挑战性,”2006 年菲尔兹奖得主陶哲轩加州大学洛杉矶分校的数学家在 Epoch AI 的问题评论中写道。 “我认为,在短期内,基本上解决这些问题的唯一方法是缺乏该领域真正的领域专家,而是由相关领域的研究生等半专家结合起来,也许与现代人工智能和许多其他代数包的某种组合相结合。”

这些问题也很独特——采取这一步骤是为了确保人工智能模型的训练数据中不存在任何问题。当训练数据中包含复杂的推理问题时,人工智能可能看起来可以解决问题,但实际上,它已经有了一张“备忘单”,因为它已经接受了答案的训练。

研究人员测试了六种最先进的人工智能模型:Google 的 Gemini 1.5 Pro (002)、Anthropic 的 Claude 3.5 Sonnet、OpenAI 的 o1-preview、o1-mini 以及 GPT4o 和 xAI 的 Grok-2 Beta。 Gemini 和 Claude 成功解决了 2%,仅比 o1-preview、o1-mini 和 GPT-4o 的 1% 稍好一些。 Grok-2 Beta 未能解决任何问题。

然而,研究人员警告说,这些排名具有误导性,因为成功率低意味着单个正确答案可能会对每个模型的总体得分产生巨大影响。

“即使模型获得了正确的答案,这并不意味着它的推理是正确的,”论文作者写道。 “例如,对于其中一个问题,运行一些简单的模拟就足以做出准确的猜测,而无需任何更深入的数学理解。然而,模型的整体准确性较低,表明这种猜测策略不适用于绝大多数 FrontierMath 问题。”

Epoch AI 的合作者总结道,研究结果表明,目前人工智能模型不具备研究水平的数学推理能力。然而,随着人工智能模型的进步,这些基准测试将提供一种方法来了解它们的推理能力是否正在加深。

该团队在声明中写道:“通过定期评估最先进的模型并与人工智能研究社区合作,我们的目标是加深对人工智能能力和局限性的理解。”

相關貼文

观看:航天器电影“钻石戒指”日食从月球表面上空,因为“血月”笼罩着地球

观看:航天器电影“钻石戒指”日食从月球表面上空,因为“血月”笼罩着地球

八齿鼠:体型巨大的仓鼠,其社会由尿液控制

八齿鼠:体型巨大的仓鼠,其社会由尿液控制

科学家发现,仅隐藏在地球表面下的一小部分氢就可以为地球提供200年的电力

科学家发现,仅隐藏在地球表面下的一小部分氢就可以为地球提供200年的电力

Celestron Labs CB2000C高级生物三眼显微镜审查

Celestron Labs CB2000C高级生物三眼显微镜审查

AI“大脑解码器”可以通过快速的脑部扫描来阅读一个人的想法,几乎没有培训

AI“大脑解码器”可以通过快速的脑部扫描来阅读一个人的想法,几乎没有培训

Terracotta陆军测验:您对中国第一皇帝墓的“勇士”有什么了解?

Terracotta陆军测验:您对中国第一皇帝墓的“勇士”有什么了解?

一周的太空照片:火星在最佳时间上升起月球的地平线

一周的太空照片:火星在最佳时间上升起月球的地平线

超级计算机运行有史以来最大,最复杂的模拟

超级计算机运行有史以来最大,最复杂的模拟

Bayeux Tapestry:一名1000年历史的刺绣,描绘了征服者威廉的胜利和国王哈罗德的死亡

Bayeux Tapestry:一名1000年历史的刺绣,描绘了征服者威廉的胜利和国王哈罗德的死亡

熱門閱讀

  • 近几十年来美国东南海岸观察到的飓风导致海面降温加剧 2024-09-21
  • 费米拉布(Fermilab)的莱德曼(Lederman)研究员驱动量子研究以发现暗物质并激发下一代科学家 2025-03-26
  • 蝴蝶病:一种使皮肤像蝴蝶翅膀一样脆弱的疾病 2024-11-21
  • 我们从多远的距离可以看到小行星飞向地球? 2023-11-14
  • 超大的黑洞可能潜伏在银河系最近的邻居 2025-03-18
  • 如果地球真的是圆的,为什么它看起来是平的? 2024-12-13
  • 科学家揭示新的减肥秘诀:每天喝这种浆果汁可以燃烧更多脂肪 2025-01-11
  • 月桂叶真的能增加味道吗,还是只是一个骗局? 2025-01-12
  • 音乐可以帮助植物生长吗?研究表明声音可能促进植物生长真菌的生长 2024-09-23
  • 座头鲸的歌曲显示类似人类语言的统计结构 2025-02-06

上升趨勢

  • 全球變暖慢慢污染了世界飲食的支柱之一 2025-04-18
  • 高速公路上的150 km/h在AI幫助下,這是合理的嗎? 2025-04-18
  • 中國康科德“ C949”被揭示:它是簽名的,是空中客車和波音的競爭對手 2025-04-18
  • 橙色後機:Livebox 6已經回來了 2025-04-18
  • 昆士蘭州洪水中的bilbies“會很好” 2025-04-17
  • 01net早晨:最好的“魔術橡皮”,奧迪Q6 e-tron的超級力量,與chatgpt保持友善很昂貴 2025-04-18
  • 這不是iPad,但性能很瘋狂,價格便宜2倍 2025-04-18
  • Netflix提高了法國訂閱的價格,貴33%! 2025-04-18
  • 這款功能強大的大型口袋PC比Mac Mini便宜2倍,是一台Dinguerie😱 2025-04-18
  • 避免Windows 11中的彈出式彈出窗口:逐步指南 2025-04-18

最近發布

  • 还清抵押贷款的理想年龄可能并不像您想象的那么低 2025-01-06
  • 如何为 wifi 中继器配置 jazztel 路由器 2024-01-31
  • 2024 年 11 月最优惠 CD 价格 2024-11-01
  • CFP 解释了投资组合过于多元化的危险 2024-11-04
  • Chrysler Voyager&Jeep®角斗士在美国被称为最佳认证的预认证(CPO)价值! 2022-11-19
  • NASCAR 车手公告留下一辆车没有 2025 年编号 2025-01-04
  • 在10年内,您可能无法在该州获得抵押贷款 2025-03-05
  • 科学家在 50 年未解之谜后确定了新的血型 2024-09-18
  • 消灭恐龙的小行星可能导致了“蚂蚁农业”的发明 2024-09-26
  • 在小鼠中发现薄荷醇与阿尔茨海默病之间的意外联系 2024-10-22

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜