Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

AI 基准受到攻击:“神奇宝贝”游戏暴露模型比较中的缺陷——争议是什么?

  • 2025-04-15
  • Elinore

谁能想到即使也包含在人工智能基准测试中吗?聊天机器人制造商使用“神奇宝贝”进行测试,以了解人工智能在游戏中的进展。

最近 X 上的一篇疯传帖子声称,在玩最初的神奇宝贝游戏三部曲时,谷歌的 Gemini AI 的表现优于 Anthropic 的 Claude 模型。据报道,双子座已经在 Twitch 直播中推进到了薰衣草镇,而截至二月份,克劳德仍在月亮山战斗。但这个故事还有更多内容。

谷歌 Gemini 的定制增强令人惊讶

阿米尔·巴拉姆/Unsplash

虽然这一病毒式传播的说法激起了人们的兴奋,但它却遗漏了一个关键细节:双子座占据优势。根据红迪网用户,管理 Gemini 流的开发人员实施了自定义迷你地图。这一巧妙的添加使聊天机器人能够识别重要的游戏元素,例如可砍树,而无需仅依赖屏幕截图分析。

很遗憾,掉落是因为它没有类似的加速度。由于缺乏这样的帮助,克劳德的游戏玩法演变完全是解码原始图像的问题——这是一项更具挑战性的任务。

TechCrunch报告称,这种差异表明人工智能基准测试中存在一个日益严重的问题:不可靠的测试环境会扭曲性能指标。

为什么“Pokémon”被用于人工智能基准测试

虽然“神奇宝贝”并不是人工智能测试的严肃基准,但它是一个有趣的例子,尽管它在展示人工智能性能和选择方面存在缺陷。然而,它也表明基准测试结果非常容易受到实施修改的影响。

例如,Anthropic 的 Claude 3.7 Sonnet 模型挂号的在评估编码能力的 SWE-bench Verified 基准上有两个不同的分数。在没有改进的情况下,它的得分为 62.3%。但通过 Anthropic 定制的“脚手架”系统,这一比例飙升至 70.3%。

“我同意,这里取得的进展表明记忆很重要。我知道大多数人无法记住他们在玩游戏时所处的每个城镇/城市/路线/洞穴的每个像素,但人类通常可以记住他们在探索过的当前区域的整体布局。因此,添加此功能感觉像是让法学硕士拥有某种功能性短期记忆的关键部分,”Reddit 帖子的OP写道。

“是的,地图功能 100% 是周游世界所必需的功能。一直认为这是 DeepMind 在其最大的 boojum 上取得进展所遇到的最大问题:蒙特祖玛的复仇,”另一位 Reddit 用户同意道。

更大的问题:模糊的人工智能比较

基准应该提供一个独特的、公平的竞争环境,以便在人工智能的进化过程中进行判断。但随着开发人员加入专有部件或针对特定测试定制模型,进行真实的同类比较变得更具挑战性。

显然,这些经过修改的基准模糊了真实模型性能和复杂优化之间的区别。预计更多的企业将被迫开发更加开放、标准化的基准测试方法,否则就有误导消费者、投资者和研究人员的风险。

相關貼文

苹果可折叠手机的未来?新专利暗示柔性设备的创新铰链

苹果可折叠手机的未来?新专利暗示柔性设备的创新铰链

据推测,苹果公司的第一款可折叠iPhone将于2026年首次亮相

据推测,苹果公司的第一款可折叠iPhone将于2026年首次亮相

谷歌照片的合作伙伴共享故障让用户愤怒:这是怎么回事?

谷歌照片的合作伙伴共享故障让用户愤怒:这是怎么回事?

Apple Cellular Mac:库比蒂诺正在“研究”新 5G 连接 PC 的可能性

Apple Cellular Mac:库比蒂诺正在“研究”新 5G 连接 PC 的可能性

NVIDIA 的 Run:ai 收购现已获得欧盟批准,新政不存在竞争威胁

NVIDIA 的 Run:ai 收购现已获得欧盟批准,新政不存在竞争威胁

新格伦火箭将于年底前发射?尽管等待许可,蓝色起源仍透露任务

新格伦火箭将于年底前发射?尽管等待许可,蓝色起源仍透露任务

iPhone SE 4 将于 2025 年推出:以下是苹果廉价智能手机的预期功能

iPhone SE 4 将于 2025 年推出:以下是苹果廉价智能手机的预期功能

血月:三月份罕见的月食日全食,眼花azz乱

血月:三月份罕见的月食日全食,眼花azz乱

X 2025 年可能会失去更多用户:选举后的用户流失预计将产生持续的连锁反应

X 2025 年可能会失去更多用户:选举后的用户流失预计将产生持续的连锁反应

熱門閱讀

  • Netflix、YouTube:流媒体的生态影响得到证实 2021-11-12
  • 如何在 Windows 11 上清除内存 2024-10-24
  • 《女士与龙》(Netflix):为什么这部电影拥有这一切? 2024-02-16
  • Degrii Zima Pro 值得吗?全面回顾 2024-10-30
  • 避免Windows 11中的弹出式弹出窗口:逐步指南 2025-04-18
  • 适用于 Windows 11 的游戏 2025-01-29
  • 3 款适合游戏和动漫迷的 Discord 游戏 2024-05-31
  • 如何将 ChatGPT 作为自定义搜索引擎添加到您的浏览器 2024-11-07
  • 下载适用于三星 Galaxy M05 的谷歌相机 2024-10-29
  • 在 Windows 上安装 Canon PIXMA G620 驱动程序 2023-10-27

上升趨勢

  • 放開您的iPhone,這個單置13至 2025-04-18
  • 根據ANSSI的說法,針對法國的網絡攻擊目前正在針對公共交通 2025-04-18
  • 地球水的起源可能不像我們想像的那麼複雜 2025-04-17
  • 中國康科德“ C949”被揭示:它是簽名的,是空中客車和波音的競爭對手 2025-04-18
  • 昆士蘭州洪水中的bilbies“會很好” 2025-04-17
  • DeepSeek將在美國取景器中:這是特朗普政府可以宣布的 2025-04-18
  • 暗物質的新形式可能解釋了銀河系的核心奧秘 2025-04-17
  • Netflix在法國大大提高了其價格,這造成了很多傷害! 2025-04-18
  • 個性化您的三星星係以前從未有過:最終在Google Play上的終極工具 2025-04-18
  • 對於Google,Pixel 9a與庸俗的iPhone不可媲美16 2025-04-18

最近發布

  • 如何在 Windows 11 中仅按名称搜索文件夹 2024-05-13
  • 11个聪明的技巧,可以在Lowe节省金钱 2025-02-25
  • 2024 年 11 月最优惠 CD 价格 2024-11-03
  • 大卫·米山(David Mishan):关于作者 2025-02-05
  • 苹果表明立场:供应商被告知停止从“冲突地区”购买矿产 2024-12-19
  • XMM-Newton在银河系卫星银河系郊外发现了两个超新星残余 2025-02-12
  • 快速外观:2020 Dodge Challenger SRT Hellcat Widebody: 2019-11-10
  • 在重新浮出水面的镜头中发现的令人寒冷的巨型线索令人信服的人仍然存在 2025-02-16
  • 如何在 Android 上恢复联系人 2024-04-19
  • 科学家发现科莫多巨蜥的牙齿上有铁帽,更加锋利 2024-07-24

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜