Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

Meta 因基準排名中使用的“實驗性”Maverick AI 版本而面臨強烈反對,但為什麼呢?

  • 2025-04-07
  • Elinore

最新的旗艦人工智能模型 Maverick 在 LM Arena 上獲得第二名後引起了轟動,LM Arena 是一個由人類評估者評估人工智能模型對質量排名的反應的平台。

然而,在人工智能研究人員發現基準測試中使用的 Maverick 版本並非開發人員公開可用的版本後,爭議爆發了。

穆罕默德·阿西福爾/Unsplash

Maverick 在 LM Arena 上令人印象深刻的表現一開始似乎證實了 Meta 推動最先進對話式人工智能前沿的主張。然而,進一步挖掘發現,測試的模型不是一般版本,根據科技博客。

相反,Meta 在其官方聲明中強調,它在 LM Arena 上推出的版本是“實驗性聊天版本”——這一點在基準分數中沒有明確引起注意。

Meta 自己的致電網站,比較表驗證了 LM Arena 測試是使用“針對對話性進行優化的 Llama 4 Maverick”進行的。據說這個變體進行了旨在改善對話的特殊調整,這可能會比其他人工智能創建者的優化程度較低或“普通”版本帶來不公平的利益。

傳統上,LM Arena 儘管可能不完美,但已作為中立基礎的近似功能,按照人類標準將大型語言模型相互對抗。絕大多數參與的人工智能公司都發布了公開發布的模型的未經修改的版本,或者在進行更改時已經開放。

相比之下,Meta 的方法因不透明而受到批評。通過不透露優化模型,而是提供微調程度較低的公共模型,開發人員會產生錯誤的性能期望,從而使人們對 Maverick 在實際設置中實際可以完成的任務感到困惑。

人工智能研究人員指出了差異

X 專家報導LM Arena 版本的 Maverick 的行為與其可下載的版本有很大不同。一些人指出其過度使用表情符號,而另一些人則注意到冗長且過於精緻的答案,以及默認版本中未找到的操作。

這種差異引出了一個重要問題公司是否有權專門針對基準調整模型並對公眾隱藏這些版本?

Meta 和 Chatbot Arena 目前保持沉默

儘管強烈反對聲不斷增加,但其他人呼籲 Meta 和 Chatbot Arena(運營 LM Arena 的實體)保持透明度。截至發稿,雙方均未對此事做出回應。

這在人工智能研究中有些令人擔憂:必須採用標準化、開放的基準來衡量現實世界的性能,而不是精心挑選的結果。隨著人工智能影響從客戶支持到內容生成的方方面面,真實的表達比以往任何時候都更加重要。

相關貼文

Meta AR 眼鏡計畫:新款 Oakley 運動員智慧眼鏡和新款「Hypernova」正在開發中

Meta AR 眼鏡計畫:新款 Oakley 運動員智慧眼鏡和新款「Hypernova」正在開發中

新的Nintendo Switch 2謠言在6月發行,但為什麼?

新的Nintendo Switch 2謠言在6月發行,但為什麼?

Boom Supersonic 的 XB-1 打破了速度記錄?

Boom Supersonic 的 XB-1 打破了速度記錄?

布魯斯基首席執行官用她的T卹戲弄馬克·扎克伯格(Mark Zuckerberg)

布魯斯基首席執行官用她的T卹戲弄馬克·扎克伯格(Mark Zuckerberg)

蘋果情報幻覺?通知摘要中存在假新聞,用戶希望將其刪除

蘋果情報幻覺?通知摘要中存在假新聞,用戶希望將其刪除

當特朗普揭幕“戰略儲備”倡議時,加密價格飆升

當特朗普揭幕“戰略儲備”倡議時,加密價格飆升

Amazon Prime Video使用AI來配音節目,電影,但它會帶來翻譯嗎?

Amazon Prime Video使用AI來配音節目,電影,但它會帶來翻譯嗎?

Nintendo Switch 2 為原版 Switch 遊戲提供向後相容性,但尚未發佈公告

Nintendo Switch 2 為原版 Switch 遊戲提供向後相容性,但尚未發佈公告

《生化危機 2》重製版在 Apple 裝置上正式首映:75% 折扣截止至 1 月 8 日

《生化危機 2》重製版在 Apple 裝置上正式首映:75% 折扣截止至 1 月 8 日

熱門閱讀

  • iOS 16:Apple Pay Later 來了,可以4倍支付一切,無需手續費 2022-06-07
  • 如何在 WhatsApp 上使用 ChatGPT? 2023-04-16
  • 如何從 Windows 和 Mac 裝置解除安裝 MacAfee 2024-04-26
  • 修復此應用程序已被阻止以保護您 Windows 10 2023-07-28
  • 2025 年 10 款 Windows PC 的最佳 Xbox One 模擬器 2025-01-07
  • uTorrent (µTorrent) 2025-03-11
  • 如何修復 Windows 11 上的「裝置已停止回應或已中斷連線」錯誤 2024-10-30
  • 在位智上,讓自己接受羅傑費德勒 (Roger Federer) 的指導 2023-06-02
  • 如何在 Microsoft 365 中使用直接傳送 2025-01-09
  • Windows 11 24H2 Dev Insider Preview 版本 26120.x 變更日誌 2024-12-08

上升趨勢

  • 中國康科德“ C949”被揭示:它是簽名的,是空中客車和波音的競爭對手 2025-04-18
  • DeepSeek將在美國取景器中:這是特朗普政府可以宣布的 2025-04-18
  • 唐納德·特朗普(Donald Trump)在半導體上收緊絞索...對美國經濟的冒險賭注 2025-04-18
  • 暗物質的新形式可能解釋了銀河系的核心奧秘 2025-04-17
  • 這57個鍍鉻擴展可以在600萬檯面上監視,並緊急卸載它們 2025-04-18
  • Android 16:Google糾正了鏡頭,最後放回了這個基本的捷徑 2025-04-18
  • 有了這個項目,MG希望以不到20,000歐元的價格出售電動汽車 2025-04-18
  • Google失去了針對其廣告帝國的審判 2025-04-18
  • 昆士蘭州洪水中的bilbies“會很好” 2025-04-17
  • 騙局,深擊,加密貨幣:Google在2024年封鎖了51億個廣告 2025-04-18

最近發布

  • 許多市政當局完全取決於Microsoft 2025-02-13
  • 探索科學是否能提供長壽、健康生活的答案 2024-12-12
  • 價格PlayStation 5通過通貨膨脹和“挑戰經濟”提高 2025-04-14
  • 圖表:未得到其他會員國認可的聯合國會員國 2025-01-16
  • 科學家發現現成的膳食補充劑可以幫助治療肝癌 2025-01-21
  • 我們將如何提高 Investopedia 的多樣性和包容性 2024-10-28
  • 2025 年 1 月最佳高收益儲蓄帳戶:高達 4.75% 2025-03-01
  • 為什麼四月是遊覽義大利阿爾卑斯山多洛米蒂山的最佳時間 2023-03-08
  • SiteName 2024-03-07
  • 我們真的可以相信我們的回憶嗎?在《好奇》第32期中找到更多 2025-02-28

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜