谁能想到即使也包含在人工智能基准测试中吗?聊天机器人制造商使用“神奇宝贝”进行测试,以了解人工智能在游戏中的进展。
最近 X 上的一篇疯传帖子声称,在玩最初的神奇宝贝游戏三部曲时,谷歌的 Gemini AI 的表现优于 Anthropic 的 Claude 模型。据报道,双子座已经在 Twitch 直播中推进到了薰衣草镇,而截至二月份,克劳德仍在月亮山战斗。但这个故事还有更多内容。
谷歌 Gemini 的定制增强令人惊讶
虽然这一病毒式传播的说法激起了人们的兴奋,但它却遗漏了一个关键细节:双子座占据优势。根据红迪网用户,管理 Gemini 流的开发人员实施了自定义迷你地图。这一巧妙的添加使聊天机器人能够识别重要的游戏元素,例如可砍树,而无需仅依赖屏幕截图分析。
很遗憾,掉落是因为它没有类似的加速度。由于缺乏这样的帮助,克劳德的游戏玩法演变完全是解码原始图像的问题——这是一项更具挑战性的任务。
TechCrunch报告称,这种差异表明人工智能基准测试中存在一个日益严重的问题:不可靠的测试环境会扭曲性能指标。
为什么“Pokémon”被用于人工智能基准测试
虽然“神奇宝贝”并不是人工智能测试的严肃基准,但它是一个有趣的例子,尽管它在展示人工智能性能和选择方面存在缺陷。然而,它也表明基准测试结果非常容易受到实施修改的影响。
例如,Anthropic 的 Claude 3.7 Sonnet 模型挂号的在评估编码能力的 SWE-bench Verified 基准上有两个不同的分数。在没有改进的情况下,它的得分为 62.3%。但通过 Anthropic 定制的“脚手架”系统,这一比例飙升至 70.3%。
“我同意,这里取得的进展表明记忆很重要。我知道大多数人无法记住他们在玩游戏时所处的每个城镇/城市/路线/洞穴的每个像素,但人类通常可以记住他们在探索过的当前区域的整体布局。因此,添加此功能感觉像是让法学硕士拥有某种功能性短期记忆的关键部分,”Reddit 帖子的OP写道。
“是的,地图功能 100% 是周游世界所必需的功能。一直认为这是 DeepMind 在其最大的 boojum 上取得进展所遇到的最大问题:蒙特祖玛的复仇,”另一位 Reddit 用户同意道。
更大的问题:模糊的人工智能比较
基准应该提供一个独特的、公平的竞争环境,以便在人工智能的进化过程中进行判断。但随着开发人员加入专有部件或针对特定测试定制模型,进行真实的同类比较变得更具挑战性。
显然,这些经过修改的基准模糊了真实模型性能和复杂优化之间的区别。预计更多的企业将被迫开发更加开放、标准化的基准测试方法,否则就有误导消费者、投资者和研究人员的风险。









