当今顶级人工智能与专家数学家的对抗。输得很惨。
大家放松点,机器人末日又要推迟一天了。
虽然人工智能可能更常用于偷艺术和产生幻觉的废话– 顺便说一句,这是一个技术术语 – 在过去的几年里,新兴技术似乎也取得了一些真正非凡的成就。在数学领域尤其如此:计算机曾经仅限于数学领域钝力器械,今天他们显然不仅可以,但可以都是他们自己的。
但他们到底有多聪明呢?在一篇新论文中,专家数学家为当今顶级人工智能程序提出了新的挑战。结果呢?惨败。
这篇目前发表在 ArXiv 预印本服务器上的论文开头写道:“最近的人工智能系统在解决具有挑战性的数学任务方面表现出了非凡的能力,从实现几何学的奥林匹克水平表现到改进组合学的现有研究成果。” “但是,现有基准面临一些限制。”
例如,作者写道,虽然人工智能系统能够应对诸如GSM8K问题集或,这些都不是完全尖端的数学——它们更像是“高中”水平,而不是“人类发明的极限”。
最重要的是——这也让人想起高中数学——我们已经没有足够的东西来询问我们的各种人工智能程序了。 “评估大型语言模型 (LLM) 的一个重大挑战是数据污染,”作者解释道,换句话说,“无意中将基准问题纳入训练数据中。”
就像一个在考试中取得好成绩的学生一样,他们已经看到了答案的关键,“这个问题导致了人为夸大的性能指标,掩盖了模型的真实推理能力,”他们写道。
解决方案:FrontierMath——该团队将其描述为“与来自领先机构的 60 多名数学家合作创建的原创且极具挑战性的数学问题的基准。”这并不是一句空话:有多位菲尔兹奖获得者参与了该项目,其中包括一位为数据集贡献了问题的人;其他测试来自世界各地大学的研究生及以上水平的数学家。
提交的问题必须满足四个标准:它们必须是原创的——“[确保]解决这些问题需要真正的数学洞察力,而不是针对已知问题的模式匹配”,论文解释道;它们必须是防猜测的;它们必须“易于计算”——也就是说,它们必须相对简单如果你知道自己在做什么;而且它们必须能够快速、自动地验证。一旦所有这些框都被选中,这些问题甚至会经过同行评审、难度评级,并安全处理以防止数据集污染。
换句话说,这不是一件小事。但今天的人工智能程序能打败它吗?
嗯……不。作者写道:“当前最先进的人工智能模型只能解决不到 2% 的问题,这揭示了人工智能能力与数学界实力之间的巨大差距。”
现在,人工智能不应该太难处理这个问题是非常困难。 “[它们]极具挑战性,”菲尔兹奖获得者陶哲轩说,需要大量的训练数据,而在实践中,“几乎不存在”。
但这确实意味着,至少就目前而言,FrontierMath 数据集有点自食其果。作者写道:“当前的人工智能模型甚至无法解决我们基准测试中的一小部分问题。” “虽然这表明我们问题的难度很高,但它暂时限制了 FrontierMath 在评估模型相对性能方面的有用性。”
“然而,我们预计随着人工智能系统的改进,这一限制将会得到解决,”他们补充道。
该论文包括数据集中的示例问题和解决方案发布在预印本服务器 ArXiv 上。