虽然AI可能更常用于偷艺术和幻觉废话- 顺便说一句,这是一个技术术语 - 最近几年也看到了新生技术中一些真正非凡的壮举。在数学领域尤其如此:计算机曾经局限于钝力乐器,今天他们显然可以解决复杂的问题,但是可以提出新颖的证明策略他们自己的全部。
但是他们真的有多聪明?在新论文中,专家数学家为当今的顶级AI计划提出了新的挑战。结果?惨败。
“最近的AI系统已经表现出在应对具有挑战性的数学任务方面的杰出熟练程度,从实现奥林匹克级的几何表现到改善组合技术的现有研究结果,”目前在Arxiv Preprint服务器上发表的论文开始说。 “但是,现有基准面临一些局限性。”
例如,作者写道,虽然AI系统可以应对诸如此类的挑战肯定令人印象深刻GSM8K问题集或国际数学奥林匹克运动会,这些都不是尖端的数学 - 它们更像是“高级高中”水平,而不是“人类发明的限制”。
最重要的是 - 还让人联想到高中数学 - 我们用尽了所有的AI计划。作者解释说:“评估大语言模型(LLM)的重大挑战是数据污染。”
他们写道,就像一个学生已经看到了答案的钥匙一样,“这个问题会导致人为夸大的性能指标,掩盖了掩盖真正的推理能力的构建,”他们写道。
解决方案:Frontiermath - 由团队描述为“与来自领先机构的60多名数学家合作创建的原始,极具挑战性的数学问题的基准”。这不是空虚的夸张:该项目中有多个奖牌获奖者,其中包括向数据集贡献问题的人;其他测试来自世界各地的大学的数学家,UP的数学家。
提交的问题必须符合四个标准:必须是原始的 - “确保解决这些问题需要真正的数学见解,而不是与已知问题相匹配的模式,”该论文解释说;他们必须猜测。它们必须是“计算上的可进行的”,也就是说,它们必须相对简单如果你知道你在做什么;而且它们必须快速自动验证。一旦检查了所有这些盒子,这些问题甚至进行了同行评审,对难度进行了评分,并可以牢固地处理以防止数据集污染。
换句话说,这是不小的壮举。但是今天的AI程序可以击败它吗?
好吧……不。作者写道:“当前的最新AI模型在2%的问题下解决了[D],揭示了AI能力与数学社区的能力之间存在巨大差距。”
现在,AI不应该太难了 - 问题是非常困难。菲尔德奖牌获得者特伦斯·陶(Terence Tao)说:“ [他们]非常具有挑战性。”
但这确实意味着至少到目前为止,Frontiermath的数据集是由其自己的Petard吊起的。作者写道:“当前的AI模型甚至无法解决我们的基准中的一小部分问题。” “尽管这证明了我们问题的高难度水平,但它暂时限制了Frontiermath在评估模型的相对性能中的有用性。”
他们补充说:“但是,我们希望随着AI系统的改善,这种限制能够解决。”
该论文(包括数据集中的示例问题和解决方案)是发布在预印服务器ARXIV上。