當今頂尖人工智慧與專家數學家的對抗。輸得很慘。
大家放鬆點,機器人末日又要延後一天了。
雖然人工智慧可能更常用於偷藝術和產生幻覺的廢話– 順便說一句,這是一個技術術語 – 在過去的幾年裡,新興技術似乎也取得了一些真正非凡的成就。在數學領域尤其如此:計算機曾經僅限於數學領域鈍力器械,今天他們顯然不只可以,但可以都是他們自己的。
但他們到底有多聰明呢?在一篇新論文中,專家數學家為當今頂尖人工智慧程式提出了新的挑戰。結果呢?慘敗。
這篇目前發表在ArXiv 預印本伺服器上的論文開頭寫道:「最近的人工智慧系統在解決具有挑戰性的數學任務方面表現出了非凡的能力,從實現幾何學的奧林匹克水平表現到改進組合學的現有研究成果。 “但是,現有基準面臨一些限制。”
例如,作者寫道,雖然人工智慧系統能夠應對諸如GSM8K問題集或,這些都不是完全尖端的數學——它們更像是「高中」水平,而不是「人類發明的極限」。
最重要的是——這也讓人想起高中數學——我們已經沒有足夠的東西來詢問我們的各種人工智慧程式了。 “評估大型語言模型 (LLM) 的一個重大挑戰是數據污染,”作者解釋道,換句話說,“無意中將基準問題納入訓練數據中。”
就像一個在考試中取得好成績的學生一樣,他們已經看到了答案的關鍵,「這個問題導致了人為誇大的表現指標,掩蓋了模型的真實推理能力,」他們寫道。
解決方案:FrontierMath——該團隊將其描述為“與來自領先機構的 60 多名數學家合作創建的原創且極具挑戰性的數學問題的基準。”這並不是一句空話:有多位菲爾茲獎得主參與了該項目,其中包括一位為數據集貢獻了問題的人;其他測試來自世界各地大學的研究生及以上程度的數學家。
提交的問題必須滿足四個標準:它們必須是原創的——“[確保]解決這些問題需要真正的數學洞察力,而不是針對已知問題的模式匹配”,論文解釋道;它們必須是防猜測的;它們必須「易於計算」——也就是說,它們必須相對簡單如果你知道自己在做什麼;而且它們必須能夠快速、自動地驗證。一旦所有這些框都被選中,這些問題甚至會經過同行評審、難度評級,並安全處理以防止資料集污染。
換句話說,這不是一件小事。但今天的人工智慧程式能打敗它嗎?
嗯……不。作者寫道:“當前最先進的人工智慧模型只能解決不到 2% 的問題,這揭示了人工智慧能力與數學界實力之間的巨大差距。”
現在,人工智慧不應該太難處理這個問題是非常困難。 「[它們]極具挑戰性,」菲爾茲獎得主陶哲軒說,需要大量的訓練數據,而在實踐中,「幾乎不存在」。
但這確實意味著,至少就目前而言,FrontierMath 資料集有點自食其果。作者寫道:“目前的人工智慧模型甚至無法解決我們基準測試中的一小部分問題。” “雖然這表明我們問題的難度很高,但它暫時限制了 FrontierMath 在評估模型相對性能方面的有用性。”
「然而,我們預計隨著人工智慧系統的改進,這一限制將會得到解決,」他們補充道。
該論文包括數據集中的示例問題和解決方案發佈在預印本伺服器 ArXiv 上。