Meta对基准排名中使用的“实验” Maverick AI版本面临反弹，但是为什么？

2025-04-07

元最新的旗舰AI模型Maverick在LM Arena上排名第二，该平台是人类评估者评估AI模型对质量排名的响应的平台。

不过，在AI研究人员发现基准中使用的Maverick版本并不是开发人员的公开可用的，这引起了争议。

小牛AI排名如何引起眉毛

Muhammad Asyfaul/Unsplash

Maverick在LM Arena上的令人印象深刻的表现似乎证实了Meta推动最先进的对话人AI前沿的断言。但是，进一步挖掘出了测试的模型不是一般版本。TechCrunch。

相反，梅塔（Meta）在自己的正式宣布中强调，它将其推出到LM Arena的版本是“实验性聊天版本”，这一点并没有明确地引起基准分数的关注。

自己的致电网站，比较表验证了LM竞技场测试是否使用“ Llama 4 Maverick优化以对话性”进行。据说这种变体具有旨在改善对话的特殊调整，这可能会给其他AI创建者的较不优化或“香草”版本带来不公平的好处。

传统上，LM竞技场尽管可能是不完美的，但它一直是中立基础的近似，可以按照人类的标准将大型语言模型相互对抗。绝大多数参与的AI公司都发布了未修改的公开释放模型，或者在进行更改时已经开放。

相比之下，Meta的方法因不透明而受到批评。通过不透露优化的模型，而是提供一个不太调整的公共模型，开发人员的性能期望是错误的，这使得Maverick在实际环境中实际上可以完成的工作感到困惑。

X的专家报告小牛的LM竞技场版本的行为与可下载的同等产品的行为明显不同。一些人引用了其过多的表情符号用法，而另一些人注意到默认版本中未发现的漫长而过度抛光的答案。

这种差异导致了一个重要的问题AI基准 G：公司是否有权专门针对基准进行微调模型，并使这些版本对公众隐藏？

在反弹坐骑的同时，其他人呼吁从Meta和Chatbot Arena（运行LM Arena的实体）透明。在写作时，双方都对这个问题做出了回应。

在AI研究中，这有点关注：标准化的开放基准测试现实世界绩效而不是樱桃挑选结果的必要性。随着AI影响从客户支持到内容产生的一切，真实的表示比以往任何时候都重要。