数学家设计了新的问题来挑战高级人工智能的推理能力——但他们几乎没有通过所有测试

2024-11-19

Armanda

研究人员根据新基准测试了六种最先进的人工智能模型，单个系统的最佳成绩为 2%。（图片来源：hh5800/Getty Images）

数学家们难倒了最先进的生成式（人工智能）模型具有一系列令人费解的新数学问题。

该研究所表示，这些问题通常需要博士级数学家花费数小时到数天的时间来解决时代人工智能。但在新的测试中，市场上最先进的人工智能模型对这些问题的正确答案不到 2%。

例如，在常用的测量大规模多任务语言理解（MMLU）基准测试中，当今的人工智能模型正确回答了 98% 的数学问题。

Epoch AI 的数学家 Elliot Glazer 及其同事在预印本数据库上发布的一篇新论文中写道，这些基准测试大多数都是为了测试人工智能进行高中和大学水平数学的能力arXiv。（该论文尚未经过同行评审或在科学期刊上发表。）

有关的：

称为 FrontierMath 的新基准测试集旨在实现更高水平的推理。 Epoch AI 在数学教授的帮助下开发了这些问题，其中包括一些菲尔兹奖获得者，菲尔兹奖可能是数学界最负盛名的奖项。这些问题涵盖了从数论到代数几何的广泛子领域，并且可以在Epoch AI 网站。

“这些都极具挑战性，”2006 年菲尔兹奖得主陶哲轩加州大学洛杉矶分校的数学家在 Epoch AI 的问题评论中写道。 “我认为，在短期内，基本上解决这些问题的唯一方法是缺乏该领域真正的领域专家，而是由相关领域的研究生等半专家结合起来，也许与现代人工智能和许多其他代数包的某种组合相结合。”

这些问题也很独特——采取这一步骤是为了确保人工智能模型的训练数据中不存在任何问题。当训练数据中包含复杂的推理问题时，人工智能可能看起来可以解决问题，但实际上，它已经有了一张“备忘单”，因为它已经接受了答案的训练。

研究人员测试了六种最先进的人工智能模型：Google 的 Gemini 1.5 Pro (002)、Anthropic 的 Claude 3.5 Sonnet、OpenAI 的 o1-preview、o1-mini 以及 GPT4o 和 xAI 的 Grok-2 Beta。 Gemini 和 Claude 成功解决了 2%，仅比 o1-preview、o1-mini 和 GPT-4o 的 1% 稍好一些。 Grok-2 Beta 未能解决任何问题。

然而，研究人员警告说，这些排名具有误导性，因为成功率低意味着单个正确答案可能会对每个模型的总体得分产生巨大影响。

“即使模型获得了正确的答案，这并不意味着它的推理是正确的，”论文作者写道。 “例如，对于其中一个问题，运行一些简单的模拟就足以做出准确的猜测，而无需任何更深入的数学理解。然而，模型的整体准确性较低，表明这种猜测策略不适用于绝大多数 FrontierMath 问题。”

Epoch AI 的合作者总结道，研究结果表明，目前人工智能模型不具备研究水平的数学推理能力。然而，随着人工智能模型的进步，这些基准测试将提供一种方法来了解它们的推理能力是否正在加深。

该团队在声明中写道：“通过定期评估最先进的模型并与人工智能研究社区合作，我们的目标是加深对人工智能能力和局限性的理解。”

相關貼文