埃隆·馬斯克(Elon Musk)的Xai終於發布了,其新的AI模型表示,它以Openai,Deepseek等形式優於競爭。但是它可以交付嗎?
憑藉新的推理功能和更多的計算能力,Grok 3已經走了很長一段路,但是AI專家仍然對其前景持圍欄。讓我們找出它如何與可用的頂級AI型號堆疊在一起。
Grok 3是AI推理的突破嗎?
馬斯克在一個X上的直播,引入Grok 3推理(Beta)和Grok 3 Mini推理。與傳統的生成AI模型不同,基於理性的AI能夠“思考”問題,從而最大程度地減少了錯誤信息或幻覺的可能性。這是提高AI可靠性和準確性的重要里程碑。
Xai聲稱,Grok 3在關鍵基準中優於OpenAI的O1和DeepSeek-R1。在Chatbot Arena的盲目測試中,Grok 3(在其代號為“巧克力”)的情況下高度分配,儘管它遲到了市場,但它還是趕上了行業領導者。
chatgpt可以被淘汰嗎?
向開拓者Andrej Karpathy,Openai創始成員和前特斯拉AI主任測試了Grok 3並分享了他的見解。
據他介紹,Grok 3具有深厚的搜索推理功能,具有Openai的頂級模型(例如O1-Pro(每月200美元),略高於DeepSeek-R1)具有競爭力。
儘管取得了這種進展,但KarPathy不相信Grok 3將足以使用戶取消其ChatGPT訂閱。
AI教授伊桑·莫利克(Ethan Mollick)呼應了這種情緒,指出:“格羅克3(Grok 3)是正確的預期。
Xai的基準爭議:他們誇大了3嗎?
Grok 3的性能表很快就傳播開來,表明其表現優於關鍵競爭對手。但是,Openai的Rex Asabor對這些主張提出了質疑,分享了一個“更新”圖表,顯示在數學和科學基準中擊敗Grok 3。
儘管Openai的O3尚未公開可用,但此比較為Xai的主張增加了一層懷疑。
公平地說,Xai在進行測試時可能並不是最近的OpenAI基準分數。但是,這提醒您AI競賽還遠遠沒有結束。
Grok 3的指數增長:冰山一角?
儘管有疑問,Grok 3的快速發展是不可否認的,Mashable寫作。Google和Openai在開發過程中享有多年的發展,分別為13年和8年,而Xai於2023年出現。但是,Grok 3已經作為領先的AI模型加入了討論。
馬斯克還指出,使用200,000 GPU,對Grok 3的計算能力是Grok 2的10倍訓練。這重申了一般規則,即增加計算量會導致AI性能增強。
但是,加里·馬庫斯(Gary Marcus)等研究人員確實質疑,是否擴大計算會進一步擴展AI智能超出一定閾值。
Grok 3的局限性:仍在進行中
儘管Grok 3已經走了很長一段路,但它仍然經歷了許多與其他AI模型相同的問題:
- 幽默能力弱:與許多AI模型類似,Grok 3具有良好幽默的技能,經常訴諸平淡的爸爸笑話。
- SVG圖像生成挑戰:AI模型通常難以定位複雜的視覺元素。 Grok 3的表現優於Gemini 1.5 Flash等替代方案,但仍然遭受了空間關係問題。
- 政治偏見問題:馬斯克(Musk)將格羅克(Grok)視為與受到政治正確性批評的AI模型的“反擊”對立面。但是Karpathy發現Grok 3不會討論一些道德挑戰,可能使其比Musk的聽眾所希望的更“過於敏感”。
馬斯克過去指出,較早的Grok模型偏向偏差,因為公開可用的培訓材料往往會偏向偏見。他發誓,未來的更新將使Grok在政治上變得更加中立。
最好的選擇是什麼?
Grok 3首先可用於X Premium+訂戶,該計劃最近增加到每月50美元。儘管該模型取得了重大進展,但還不足以剝奪Openai的Chatgpt和DeepSeek,這是
對於AI和Musk的粉絲來說,Grok 3是AI場景的歡迎。但是,對於任何在AI模型中最好的人來說,Grok 3可能還不夠強大,無法使用戶在此時間點從頂級行業參與者切換。
在另一個評論中解密,Grok-3比其他AI聊天機器人允許更多的“言論自由”。當涉及編碼時,它比其他人“工作”更好。但是,在數學推理中,OpenAI和DeepSeek仍然是更好的聊天機器人。