AI在火中進行基準測試：“Pokémon”遊戲在模型比較中暴露了裂縫

AI在火中進行基準測試：“Pokémon”遊戲在模型比較中暴露了裂縫 - 爭議是什麼？

2025-04-15

誰會想到“神奇寶貝”遊戲還包括AI基準測試嗎？聊天機器人製造商使用“Pokémon”進行測試，以查看AI在遊戲中的進度。

X上最近的病毒帖子聲稱Google的雙子座AI在演奏原始的《神奇寶貝遊戲》三部曲時優於擬人化的Claude模型。據報導，雙子座在一條抽搐的溪流中前往薰衣草小鎮，而克勞德（Claude）仍在2月份仍在穆特（Mount Moon）戰鬥。但是故事還有更多。

Google Gemini的自定義提升引起了眉毛

Amir Balam/Unsplash

雖然病毒主張引起了興奮的激動，但它方便地忽略了一個關鍵的細節：雙子座的腿抬起。根據reddit用戶，管理雙子座流的開發人員實現了自定義迷你地圖。這種巧妙的補充使聊天機器人可以識別重要的遊戲元素，例如可切割的樹，而不僅僅是僅依賴屏幕截圖分析。

很遺憾，人類的克勞德（Claude）掉落是因為它沒有類似的加速度。缺乏這樣的輔助工具，克勞德的遊戲演化完全是解碼原始圖像的問題，這是一項更具挑戰性的任務。

TechCrunch報告說，這種差異指出了AI基準測試中的一個越來越多的問題：扭曲性能指標的不可靠測試環境。

雖然“神奇寶貝”並不是AI測試的嚴肅基準，但這是一個有趣的基準，儘管有缺陷的例子表現出AI的性能和選擇。但是，這也表明了實施修改的易感基準結果非常易感。

例如，人類的克勞德（Claude）3.7十四行詩模型掛號的在SWE基礎驗證的基準測試中，有兩個不同的分數，可評估編碼能力。沒有改進的幫助，它得分62.3％。但是，隨著人類構建的定制“腳手架”系統，它飆升至70.3％。

“我同意，在這裡取得的進展數量表明記憶很重要。我知道，大多數人都無法記住他們在玩遊戲時所處的每個城鎮/城市/路線/洞穴的每個像素，但是人類通常可以記住當前區域的整體佈局，通常一旦探索了這一功能。帖子寫道。

另一位Reddit用戶同意：“是的，映射教師是100％在世界範圍內繞過世界的必要功能。總是認為這是DeepMind在其最大的Boojum：Montezuma的報仇方面最大的問題。”

基準測試應提供一個獨特的，較高的競爭環境，可以在AI Evolution上判斷它。但是，由於開發人員包括專有作品或為特定測試量身定制模型，因此蘋果至蘋果的比較變得越來越具有挑戰性。

顯然，這些塑造的基準測試掩蓋了真正的模型性能與復雜優化之間的區別。可以預見的是，更多的企業將被迫開發更開放的標準化基準方法，或者有可能誤導消費者，投資者和研究人員。