Meta對基準排名中使用的“實驗” Maverick AI版本面臨反彈，但是為什麼？

2025-04-07

最新的旗艦AI模型Maverick在LM Arena上排名第二，該平台是人類評估者評估AI模型對質量排名的響應的平台。

不過，在AI研究人員發現基準中使用的Maverick版本並不是開發人員的公開可用的，這引起了爭議。

小牛AI排名如何引起眉毛

Muhammad Asyfaul/Unsplash

Maverick在LM Arena上的令人印象深刻的表現似乎證實了Meta推動最先進的對話人AI前沿的斷言。但是，進一步挖掘出了測試的模型不是一般版本。TechCrunch。

相反，梅塔（Meta）在自己的正式宣布中強調，它將其推出到LM Arena的版本是“實驗性聊天版本”，這一點並沒有明確地引起基準分數的關注。

自己的致電網站，比較表驗證了LM競技場測試是否使用“ Llama 4 Maverick優化以對話性”進行。據說這種變體具有旨在改善對話的特殊調整，這可能會給其他AI創建者的較不優化或“香草”版本帶來不公平的好處。

傳統上，LM競技場儘管可能是不完美的，但它一直是中立基礎的近似，可以按照人類的標準將大型語言模型相互對抗。絕大多數參與的AI公司都發布了未修改的公開釋放模型，或者在進行更改時已經開放。

相比之下，Meta的方法因不透明而受到批評。通過不透露優化的模型，而是提供一個不太調整的公共模型，開發人員的性能期望是錯誤的，這使得Maverick在實際環境中實際上可以完成的工作感到困惑。

X的專家報告小牛的LM競技場版本的行為與可下載的同等產品的行為明顯不同。一些人引用了其過多的表情符號用法，而另一些人注意到默認版本中未發現的漫長而過度拋光的答案。

這種差異導致了一個重要的問題公司是否有權專門針對基准進行微調模型，並使這些版本對公眾隱藏？

在反彈坐騎的同時，其他人呼籲從Meta和Chatbot Arena（運行LM Arena的實體）透明。在寫作時，雙方都對這個問題做出了回應。

在AI研究中，這有點關注：標準化的開放基準測試現實世界績效而不是櫻桃挑選結果的必要性。隨著AI影響從客戶支持到內容產生的一切，真實的表示比以往任何時候都重要。