誰會想到“神奇寶貝”遊戲還包括AI基準測試嗎?聊天機器人製造商使用“Pokémon”進行測試,以查看AI在遊戲中的進度。
X上最近的病毒帖子聲稱Google的雙子座AI在演奏原始的《神奇寶貝遊戲》三部曲時優於擬人化的Claude模型。據報導,雙子座在一條抽搐的溪流中前往薰衣草小鎮,而克勞德(Claude)仍在2月份仍在穆特(Mount Moon)戰鬥。但是故事還有更多。
Google Gemini的自定義提升引起了眉毛
雖然病毒主張引起了興奮的激動,但它方便地忽略了一個關鍵的細節:雙子座的腿抬起。根據reddit用戶,管理雙子座流的開發人員實現了自定義迷你地圖。這種巧妙的補充使聊天機器人可以識別重要的遊戲元素,例如可切割的樹,而不僅僅是僅依賴屏幕截圖分析。
很遺憾,人類的克勞德(Claude)掉落是因為它沒有類似的加速度。缺乏這樣的輔助工具,克勞德的遊戲演化完全是解碼原始圖像的問題,這是一項更具挑戰性的任務。
TechCrunch報告說,這種差異指出了AI基準測試中的一個越來越多的問題:扭曲性能指標的不可靠測試環境。
為什麼在AI基準中使用“神奇寶貝”
雖然“神奇寶貝”並不是AI測試的嚴肅基準,但這是一個有趣的基準,儘管有缺陷的例子表現出AI的性能和選擇。但是,這也表明了實施修改的易感基準結果非常易感。
例如,人類的克勞德(Claude)3.7十四行詩模型掛號的在SWE基礎驗證的基準測試中,有兩個不同的分數,可評估編碼能力。沒有改進的幫助,它得分62.3%。但是,隨著人類構建的定制“腳手架”系統,它飆升至70.3%。
“我同意,在這裡取得的進展數量表明記憶很重要。我知道,大多數人都無法記住他們在玩遊戲時所處的每個城鎮/城市/路線/洞穴的每個像素,但是人類通常可以記住當前區域的整體佈局,通常一旦探索了這一功能。帖子寫道。
另一位Reddit用戶同意:“是的,映射教師是100%在世界範圍內繞過世界的必要功能。總是認為這是DeepMind在其最大的Boojum:Montezuma的報仇方面最大的問題。”
更大的問題:模糊的AI比較
基準測試應提供一個獨特的,較高的競爭環境,可以在AI Evolution上判斷它。但是,由於開發人員包括專有作品或為特定測試量身定制模型,因此蘋果至蘋果的比較變得越來越具有挑戰性。
顯然,這些塑造的基準測試掩蓋了真正的模型性能與復雜優化之間的區別。可以預見的是,更多的企業將被迫開發更開放的標準化基準方法,或者有可能誤導消費者,投資者和研究人員。