Elon Musk 的 Grok 3 vs ChatGPT vs DeepSeek：哪个是当今最好的人工智能聊天机器人？

埃隆·马斯克的 xAI 终于发布了其新的 AI 模型表示，其性能优于 OpenAI、DeepSeek 等形式的竞争对手。但它能实现吗？

凭借新的推理功能和更强的计算能力，Grok 3 已经取得了长足的进步，但人工智能专家仍对其前景持观望态度。让我们看看它与现有的顶级人工智能模型相比如何。

Mariia Shalabaieva/Unsplas

马斯克在一次发布会上透露了 Grok 3 系列X 上的直播，介绍 Grok 3 Reasoning（测试版）和 Grok 3 Mini Reasoning。与传统的生成式人工智能模型不同，基于理性的人工智能能够“思考”问题，最大限度地减少错误信息或幻觉的可能性。这是增强人工智能可靠性和准确性的一个重要里程碑。

xAI 声称 Grok 3 在关键基准测试中优于 OpenAI 的 o1 和 DeepSeek-R1。在Chatbot Arena的盲测中，代号“巧克力”的Grok 3排名靠前，证明尽管其进入市场较晚，但已经赶上了行业领导者的步伐。

ChatGPT 会被废黜吗？

人工智能先锋安德烈·卡帕蒂,OpenAI 创始成员、前 Tesla AI 总监测试了 Grok 3 并分享了他的见解。

据他介绍，具有深度搜索推理功能的 Grok 3 可以与 o1-pro（200 美元/月）等 OpenAI 顶级模型相媲美，并且性能略优于 DeepSeek-R1。

尽管取得了这些进展，Karpathy 并不认为 Grok 3 足以让用户取消其 ChatGPT 订阅。

AI 教授 Ethan Mollick 回应了这一观点，他表示：“Grok 3 的出现符合预期”，并补充说计算能力和速度仍然是 AI 开发的关键差异化因素。

xAI 基准争议：他们是否过度炒作了 Grok 3？

Grok 3 的性能图表迅速走红，显示其性能优于主要竞争对手。然而，OpenAI 的 Rex Asabor 对这些说法提出了质疑，并分享了一张“更新”的图表，显示在数学和科学基准测试中击败 Grok 3。

虽然 OpenAI 的 o3 尚未公开，但这种比较为 xAI 的说法增添了一层怀疑。

平心而论，xAI 在运行测试时可能并不了解最近的 OpenAI 基准测试分数。然而，这提醒人们，人工智能竞赛还远未结束。

Grok 3 的指数级增长：冰山一角？

尽管有人质疑，Grok 3 的快速发展是不可否认的，可混搭写入。Google 和 OpenAI 在开发方面领先了多年（分别为 13 年和 8 年），而 xAI 于 2023 年问世。尽管如此，Grok 3 已经作为领先的 AI 模型加入了讨论。

马斯克还表示，Grok 3 的训练计算能力是 Grok 2 的 10 倍，使用了 20 万个 GPU。这重申了计算量增加会增强人工智能性能的一般规则。

然而，加里·马库斯（Gary Marcus）等研究人员确实质疑，扩大计算规模是否会进一步将人工智能智能提高到一定阈值以上。

Grok 3 的局限性：仍在进行中

尽管 Grok 3 已经取得了长足的进步，但它仍然遇到许多与其他 AI 模型相同的问题：

幽默能力较弱：与许多 AI 模型类似，Grok 3 产生幽默的能力较差，经常讲乏味的爸爸笑话。
SVG 图像生成挑战：AI 模型通常很难定位复杂的视觉元素。 Grok 3 的性能优于 Gemini 1.5 Flash 等替代品，但仍然存在空间关系问题。
政治偏见问题：马斯克将 Grok 定义为“反觉醒”的人工智能模型，与因政治正确性而受到批评的人工智能模型相对应。但卡帕蒂发现 Grok 3 不会讨论一些道德挑战，这可能使其比马斯克的观众所希望的更加“过于敏感”。

马斯克过去曾指出，早期的 Grok 模型偏左，因为公开的培训材料往往偏左。他发誓，未来的更新将使 Grok 在政治上更加中立。