埃隆·马斯克(Elon Musk)的Xai终于发布了,其新的AI模型表示,它以Openai,Deepseek等形式优于竞争。但是它可以交付吗?
凭借新的推理功能和更多的计算能力,Grok 3已经走了很长一段路,但是AI专家仍然对其前景持围栏。让我们找出它如何与可用的顶级AI型号堆叠在一起。
Grok 3是AI推理的突破吗?
马斯克在一个X上的直播,引入Grok 3推理(Beta)和Grok 3 Mini推理。与传统的生成AI模型不同,基于理性的AI能够“思考”问题,从而最大程度地减少了错误信息或幻觉的可能性。这是提高AI可靠性和准确性的重要里程碑。
Xai声称,Grok 3在关键基准中优于OpenAI的O1和DeepSeek-R1。在Chatbot Arena的盲目测试中,Grok 3(在其代号为“巧克力”)的情况下高度分配,尽管它迟到了市场,但它还是赶上了行业领导者。
chatgpt可以被淘汰吗?
向开拓者Andrej Karpathy,Openai创始成员和前特斯拉AI主任测试了Grok 3并分享了他的见解。
据他介绍,Grok 3具有深厚的搜索推理功能,具有Openai的顶级模型(例如O1-Pro(每月200美元),略高于DeepSeek-R1)具有竞争力。
尽管取得了这种进展,但KarPathy不相信Grok 3将足以使用户取消其ChatGPT订阅。
AI教授伊桑·莫利克(Ethan Mollick)呼应了这种情绪,指出:“格罗克3(Grok 3)是正确的预期。
Xai的基准争议:他们夸大了3吗?
Grok 3的性能表很快就传播开来,表明其表现优于关键竞争对手。但是,Openai的Rex Asabor对这些主张提出了质疑,分享了一个“更新”图表,显示在数学和科学基准中击败Grok 3。
尽管Openai的O3尚未公开可用,但此比较为Xai的主张增加了一层怀疑。
公平地说,Xai在进行测试时可能并不是最近的OpenAI基准分数。但是,这提醒您AI竞赛还远远没有结束。
Grok 3的指数增长:冰山一角?
尽管有疑问,Grok 3的快速发展是不可否认的,Mashable写作。Google和Openai在开发过程中享有多年的发展,分别为13年和8年,而Xai于2023年出现。但是,Grok 3已经作为领先的AI模型加入了讨论。
马斯克还指出,使用200,000 GPU,对Grok 3的计算能力是Grok 2的10倍训练。这重申了一般规则,即增加计算量会导致AI性能增强。
但是,加里·马库斯(Gary Marcus)等研究人员确实质疑,是否扩大计算会进一步扩展AI智能超出一定阈值。
Grok 3的局限性:仍在进行中
尽管Grok 3已经走了很长一段路,但它仍然经历了许多与其他AI模型相同的问题:
- 幽默能力弱:与许多AI模型类似,Grok 3具有良好幽默的技能,经常诉诸平淡的爸爸笑话。
- SVG图像生成挑战:AI模型通常难以定位复杂的视觉元素。 Grok 3的表现优于Gemini 1.5 Flash等替代方案,但仍然遭受了空间关系问题。
- 政治偏见问题:马斯克(Musk)将格罗克(Grok)视为与受到政治正确性批评的AI模型的“反击”对立面。但是Karpathy发现Grok 3不会讨论一些道德挑战,可能使其比Musk的听众所希望的更“过于敏感”。
马斯克过去指出,较早的Grok模型偏向偏差,因为公开可用的培训材料往往会偏向偏见。他发誓,未来的更新将使Grok在政治上变得更加中立。
最好的选择是什么?
Grok 3首先可用于X Premium+订户,该计划最近增加到每月50美元。尽管该模型取得了重大进展,但还不足以剥夺Openai的Chatgpt和DeepSeek,这是
对于AI和Musk的粉丝来说,Grok 3是AI场景的欢迎。但是,对于任何在AI模型中最好的人来说,Grok 3可能还不够强大,无法使用户在此时间点从顶级行业参与者切换。
在另一个评论中解密,Grok-3比其他AI聊天机器人允许更多的“言论自由”。当涉及编码时,它比其他人“工作”更好。但是,在数学推理中,OpenAI和DeepSeek仍然是更好的聊天机器人。