谁会想到还包括AI基准测试吗?聊天机器人制造商使用“Pokémon”进行测试,以查看AI在游戏中的进度。
X上最近的病毒帖子声称Google的双子座AI在演奏原始的《神奇宝贝游戏》三部曲时优于拟人化的Claude模型。据报道,双子座在一条抽搐的溪流中前往薰衣草小镇,而克劳德(Claude)仍在2月份仍在穆特(Mount Moon)战斗。但是故事还有更多。
Google Gemini的自定义提升引起了眉毛
虽然病毒主张引起了兴奋的激动,但它方便地忽略了一个关键的细节:双子座的腿抬起。根据reddit用户,管理双子座流的开发人员实现了自定义迷你地图。这种巧妙的补充使聊天机器人可以识别重要的游戏元素,例如可切割的树,而不仅仅是仅依赖屏幕截图分析。
很遗憾,掉落是因为它没有类似的加速度。缺乏这样的辅助工具,克劳德的游戏演化完全是解码原始图像的问题,这是一项更具挑战性的任务。
TechCrunch报告说,这种差异指出了AI基准测试中的一个越来越多的问题:扭曲性能指标的不可靠测试环境。
为什么在AI基准中使用“神奇宝贝”
虽然“神奇宝贝”并不是AI测试的严肃基准,但这是一个有趣的基准,尽管有缺陷的例子表现出AI的性能和选择。但是,这也表明了实施修改的易感基准结果非常易感。
例如,人类的克劳德(Claude)3.7十四行诗模型挂号的在SWE基础验证的基准测试中,有两个不同的分数,可评估编码能力。没有改进的帮助,它得分62.3%。但是,随着人类构建的定制“脚手架”系统,它飙升至70.3%。
“我同意,在这里取得的进展数量表明记忆很重要。我知道,大多数人都无法记住他们在玩游戏时所处的每个城镇/城市/路线/洞穴的每个像素,但是人类通常可以记住当前区域的整体布局,通常一旦探索了这一功能。帖子写道。
另一位Reddit用户同意:“是的,映射教师是100%在世界范围内绕过世界的必要功能。总是认为这是DeepMind在其最大的Boojum:Montezuma的报仇方面最大的问题。”
更大的问题:模糊的AI比较
基准测试应提供一个独特的,较高的竞争环境,可以在AI Evolution上判断它。但是,由于开发人员包括专有作品或为特定测试量身定制模型,因此苹果至苹果的比较变得越来越具有挑战性。
显然,这些塑造的基准测试掩盖了真正的模型性能与复杂优化之间的区别。可以预见的是,更多的企业将被迫开发更开放的标准化基准方法,或者有可能误导消费者,投资者和研究人员。