Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

AI在火中進行基準測試:“Pokémon”遊戲在模型比較中暴露了裂縫 - 爭議是什麼?

  • 2025-04-15
  • Elinore

誰會想到“神奇寶貝”遊戲還包括AI基準測試嗎?聊天機器人製造商使用“Pokémon”進行測試,以查看AI在遊戲中的進度。

X上最近的病毒帖子聲稱Google的雙子座AI在演奏原始的《神奇寶貝遊戲》三部曲時優於擬人化的Claude模型。據報導,雙子座在一條抽搐的溪流中前往薰衣草小鎮,而克勞德(Claude)仍在2月份仍在穆特(Mount Moon)戰鬥。但是故事還有更多。

Google Gemini的自定義提升引起了眉毛

Amir Balam/Unsplash

雖然病毒主張引起了興奮的激動,但它方便地忽略了一個關鍵的細節:雙子座的腿抬起。根據reddit用戶,管理雙子座流的開發人員實現了自定義迷你地圖。這種巧妙的補充使聊天機器人可以識別重要的遊戲元素,例如可切割的樹,而不僅僅是僅依賴屏幕截圖分析。

很遺憾,人類的克勞德(Claude)掉落是因為它沒有類似的加速度。缺乏這樣的輔助工具,克勞德的遊戲演化完全是解碼原始圖像的問題,這是一項更具挑戰性的任務。

TechCrunch報告說,這種差異指出了AI基準測試中的一個越來越多的問題:扭曲性能指標的不可靠測試環境。

為什麼在AI基準中使用“神奇寶貝”

雖然“神奇寶貝”並不是AI測試的嚴肅基準,但這是一個有趣的基準,儘管有缺陷的例子表現出AI的性能和選擇。但是,這也表明了實施修改的易感基準結果非常易感。

例如,人類的克勞德(Claude)3.7十四行詩模型掛號的在SWE基礎驗證的基準測試中,有兩個不同的分數,可評估編碼能力。沒有改進的幫助,它得分62.3%。但是,隨著人類構建的定制“腳手架”系統,它飆升至70.3%。

“我同意,在這裡取得的進展數量表明記憶很重要。我知道,大多數人都無法記住他們在玩遊戲時所處的每個城鎮/城市/路線/洞穴的每個像素,但是人類通常可以記住當前區域的整體佈局,通常一旦探索了這一功能。帖子寫道。

另一位Reddit用戶同意:“是的,映射教師是100%在世界範圍內繞過世界的必要功能。總是認為這是DeepMind在其最大的Boojum:Montezuma的報仇方面最大的問題。”

更大的問題:模糊的AI比較

基準測試應提供一個獨特的,較高的競爭環境,可以在AI Evolution上判斷它。但是,由於開發人員包括專有作品或為特定測試量身定制模型,因此蘋果至蘋果的比較變得越來越具有挑戰性。

顯然,這些塑造的基準測試掩蓋了真正的模型性能與復雜優化之間的區別。可以預見的是,更多的企業將被迫開發更開放的標準化基準方法,或者有可能誤導消費者,投資者和研究人員。

相關貼文

由於“偏見”,馬克·祖克柏更願意將 Meta 的內容審核團隊遷出加州

由於“偏見”,馬克·祖克柏更願意將 Meta 的內容審核團隊遷出加州

任天堂聲音時鐘:Alamo 建議 2025 年 3 月限量:沒有新 Switch 2 消息?

任天堂聲音時鐘:Alamo 建議 2025 年 3 月限量:沒有新 Switch 2 消息?

OpenAI 推出 Sora AI 影片產生器,但體驗它的最佳方式是透過 ChatGPT Pro

OpenAI 推出 Sora AI 影片產生器,但體驗它的最佳方式是透過 ChatGPT Pro

CES 2025 的最尖端技術:我們從未見過的最令人興奮的小工具

CES 2025 的最尖端技術:我們從未見過的最令人興奮的小工具

Apple 停售 iPhone SE、14 系列

Apple 停售 iPhone SE、14 系列

Apple Intelligence 功能讓部分 iPhone 用戶印象深刻-Genmoji 和 ChatGPT 能否扭轉局面?

Apple Intelligence 功能讓部分 iPhone 用戶印象深刻-Genmoji 和 ChatGPT 能否扭轉局面?

AI Companion Nomi承諾“持久關係”,但促使自我傷害,其他可怕的行為

AI Companion Nomi承諾“持久關係”,但促使自我傷害,其他可怕的行為

CryptoWatch:馬斯克的加密貨幣背書、輻射資本駭客、Meme 硬幣心理學

CryptoWatch:馬斯克的加密貨幣背書、輻射資本駭客、Meme 硬幣心理學

郭說,蘋果智慧家庭相機將於 2026 年推出,搭載 Apple Intelligence

郭說,蘋果智慧家庭相機將於 2026 年推出,搭載 Apple Intelligence

熱門閱讀

  • 啟動 Windows 11 就是這麼簡單 2022-08-09
  • 如何修復 Windows 11 上的錯誤代碼 15 或 16「此請求被安全規則阻止」錯誤 2024-11-20
  • Windows 10 22H2 Insider Preview Build 19045.5194 發佈至發布預覽頻道 2024-11-15
  • 2023 年如何在 Mac 上播放 VOB 文件 2023-02-15
  • Windows 11 將使您更輕鬆地在檔案總管中複製檔案或資料夾的路徑 2021-12-27
  • 如何解決「iPhone 卡在驗證更新」的問題? 2024-04-18
  • 如何在Google Chrome中禁用現場字幕 2024-01-30
  • 提示:如何在記事本++中啟用或禁用PIN選項卡功能 2024-11-27
  • Azuread和Msonline模塊退休 2025-01-27
  • 谷歌雙子座:告別巴德後的人工智慧新時代 2024-02-05

上升趨勢

  • 高速公路上的150 km/h在AI幫助下,這是合理的嗎? 2025-04-18
  • Android 16:Google糾正了鏡頭,最後放回了這個基本的捷徑 2025-04-18
  • DeepSeek將在美國取景器中:這是特朗普政府可以宣布的 2025-04-18
  • 在加拿大,神秘的三趾足跡揭示了新的尾甲龍 2025-04-17
  • Freebox Pop S機器引誘橙色,Bouygues和SFR訂戶 2025-04-18
  • 個性化您的三星星係以前從未有過:最終在Google Play上的終極工具 2025-04-18
  • 有了這個項目,MG希望以不到20,000歐元的價格出售電動汽車 2025-04-18
  • 中國康科德“ C949”被揭示:它是簽名的,是空中客車和波音的競爭對手 2025-04-18
  • 全球變暖慢慢污染了世界飲食的支柱之一 2025-04-18
  • 認識Zhúlóng,這是銀河系的“雙胞胎”,搖晃我們的宇宙時間表 2025-04-17

最近發布

  • 不洗米飯嗎?希望你喜歡大米象鼻蟲的味道 2025-03-28
  • 世界上最古老的起司被發現塗在3600年前木乃伊的頭上 2024-09-27
  • 什麼是 AMD FSR 以及它如何提高效能? 2024-02-19
  • 科學家探索酵母發酵劑中的微生物多樣性 2024-09-21
  • 在人類尼安德特人混合孩子的傳奇中揭示了神秘的轉折 2025-03-16
  • 雞尾酒這個詞的由來是什麼?奇怪的答案可能會讓你覺得醉了 2024-03-07
  • 以明智的方式減少排放:基於強度的方法如何推動真正的變革 2024-09-28
  • 圖表:1970 年以來最嚴重的美國股市崩盤 2024-10-08
  • windows xp專業版如何設定wifi 2024-01-25
  • 哈佛大學研究發現,每天吃橙色可能會使抑鬱症風險降低20% 2025-02-26

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜