埃隆·马斯克的 xAI 终于发布了其新的 AI 模型表示,其性能优于 OpenAI、DeepSeek 等形式的竞争对手。但它能实现吗?
凭借新的推理功能和更强的计算能力,Grok 3 已经取得了长足的进步,但人工智能专家仍对其前景持观望态度。让我们看看它与现有的顶级人工智能模型相比如何。
马斯克在一次发布会上透露了 Grok 3 系列X 上的直播,介绍 Grok 3 Reasoning(测试版)和 Grok 3 Mini Reasoning。与传统的生成式人工智能模型不同,基于理性的人工智能能够“思考”问题,最大限度地减少错误信息或幻觉的可能性。这是增强人工智能可靠性和准确性的一个重要里程碑。
xAI 声称 Grok 3 在关键基准测试中优于 OpenAI 的 o1 和 DeepSeek-R1。在Chatbot Arena的盲测中,代号“巧克力”的Grok 3排名靠前,证明尽管其进入市场较晚,但已经赶上了行业领导者的步伐。
ChatGPT 会被废黜吗?
人工智能先锋安德烈·卡帕蒂,OpenAI 创始成员、前 Tesla AI 总监测试了 Grok 3 并分享了他的见解。
据他介绍,具有深度搜索推理功能的 Grok 3 可以与 o1-pro(200 美元/月)等 OpenAI 顶级模型相媲美,并且性能略优于 DeepSeek-R1。
尽管取得了这些进展,Karpathy 并不认为 Grok 3 足以让用户取消其 ChatGPT 订阅。
AI 教授 Ethan Mollick 回应了这一观点,他表示:“Grok 3 的出现符合预期”,并补充说计算能力和速度仍然是 AI 开发的关键差异化因素。
xAI 基准争议:他们是否过度炒作了 Grok 3?
Grok 3 的性能图表迅速走红,显示其性能优于主要竞争对手。然而,OpenAI 的 Rex Asabor 对这些说法提出了质疑,并分享了一张“更新”的图表,显示在数学和科学基准测试中击败 Grok 3。
虽然 OpenAI 的 o3 尚未公开,但这种比较为 xAI 的说法增添了一层怀疑。
平心而论,xAI 在运行测试时可能并不了解最近的 OpenAI 基准测试分数。然而,这提醒人们,人工智能竞赛还远未结束。
Grok 3 的指数级增长:冰山一角?
尽管有人质疑,Grok 3 的快速发展是不可否认的,可混搭写入。Google 和 OpenAI 在开发方面领先了多年(分别为 13 年和 8 年),而 xAI 于 2023 年问世。尽管如此,Grok 3 已经作为领先的 AI 模型加入了讨论。
马斯克还表示,Grok 3 的训练计算能力是 Grok 2 的 10 倍,使用了 20 万个 GPU。这重申了计算量增加会增强人工智能性能的一般规则。
然而,加里·马库斯(Gary Marcus)等研究人员确实质疑,扩大计算规模是否会进一步将人工智能智能提高到一定阈值以上。
Grok 3 的局限性:仍在进行中
尽管 Grok 3 已经取得了长足的进步,但它仍然遇到许多与其他 AI 模型相同的问题:
- 幽默能力较弱:与许多 AI 模型类似,Grok 3 产生幽默的能力较差,经常讲乏味的爸爸笑话。
- SVG 图像生成挑战:AI 模型通常很难定位复杂的视觉元素。 Grok 3 的性能优于 Gemini 1.5 Flash 等替代品,但仍然存在空间关系问题。
- 政治偏见问题:马斯克将 Grok 定义为“反觉醒”的人工智能模型,与因政治正确性而受到批评的人工智能模型相对应。但卡帕蒂发现 Grok 3 不会讨论一些道德挑战,这可能使其比马斯克的观众所希望的更加“过于敏感”。
马斯克过去曾指出,早期的 Grok 模型偏左,因为公开的培训材料往往偏左。他发誓,未来的更新将使 Grok 在政治上更加中立。
最好的选择是什么?
Grok 3 首先向 X Premium+ 订阅者提供,该计划最近涨至每月 50 美元。虽然该模型取得了重大进展,但可能还不足以推翻 OpenAI 的 ChatGPT 和 DeepSeek,后者是
对于人工智能和马斯克的粉丝来说,Grok 3 是人工智能领域的一个受欢迎的补充。但对于任何寻求最佳 AI 模型的人来说,Grok 3 目前可能还不足以让用户从行业顶级参与者转向。
在另一篇评论中解密,Grok-3 比其他 AI 聊天机器人允许更多的“言论自由”。当谈到编码时,它“只是比其他的更好”。然而,在数学推理中,OpenAI 和 DeepSeek 仍然是更好的聊天机器人。









