元最新的旗舰AI模型Maverick在LM Arena上排名第二,该平台是人类评估者评估AI模型对质量排名的响应的平台。
不过,在AI研究人员发现基准中使用的Maverick版本并不是开发人员的公开可用的,这引起了争议。
小牛AI排名如何引起眉毛
Maverick在LM Arena上的令人印象深刻的表现似乎证实了Meta推动最先进的对话人AI前沿的断言。但是,进一步挖掘出了测试的模型不是一般版本。TechCrunch。
相反,梅塔(Meta)在自己的正式宣布中强调,它将其推出到LM Arena的版本是“实验性聊天版本”,这一点并没有明确地引起基准分数的关注。
自己的致电网站,比较表验证了LM竞技场测试是否使用“ Llama 4 Maverick优化以对话性”进行。据说这种变体具有旨在改善对话的特殊调整,这可能会给其他AI创建者的较不优化或“香草”版本带来不公平的好处。
传统上,LM竞技场尽管可能是不完美的,但它一直是中立基础的近似,可以按照人类的标准将大型语言模型相互对抗。绝大多数参与的AI公司都发布了未修改的公开释放模型,或者在进行更改时已经开放。
相比之下,Meta的方法因不透明而受到批评。通过不透露优化的模型,而是提供一个不太调整的公共模型,开发人员的性能期望是错误的,这使得Maverick在实际环境中实际上可以完成的工作感到困惑。
AI研究人员召集了差异
X的专家报告小牛的LM竞技场版本的行为与可下载的同等产品的行为明显不同。一些人引用了其过多的表情符号用法,而另一些人注意到默认版本中未发现的漫长而过度抛光的答案。
这种差异导致了一个重要的问题AI基准G:公司是否有权专门针对基准进行微调模型,并使这些版本对公众隐藏?
目前,元机器人和聊天机器人竞技场保持沉默
在反弹坐骑的同时,其他人呼吁从Meta和Chatbot Arena(运行LM Arena的实体)透明。在写作时,双方都对这个问题做出了回应。
在AI研究中,这有点关注:标准化的开放基准测试现实世界绩效而不是樱桃挑选结果的必要性。随着AI影响从客户支持到内容产生的一切,真实的表示比以往任何时候都重要。