OpenAI O3型号：较低的基准分数提出了有关索赔，AI透明度的问题

2025-04-21

Openai长期以来，一直在吹捧其人工智能（AI）开发的能力，尤其是在其O系列模型中具有推理和更高级功能的模型。

该公司对其O3模型的能力提出了重大主张，该公司去年揭幕了该模型，其中包括其解决Frontiermath的更复杂数学问题的能力。

Openai O3型号较低基准惨败

Openai首席研究官Mark Chen以前在直播中揭示视频表明该公司的O3模型是强大的，并且它是如此高级，它可以回答超过25％的Frontiermath问题，而Trontiermath中发现的问题对于用户和机器有一系列具有挑战性的问题。

但是，这是由时代（通过TechCrunch）其最近对O3模型的独立基准测试表明，Openai的主张实际上并不是真实的。

独立测试揭示了Openai的O3只能回答聊天机器人提出的数学问题的10％，与他们的主张相比，它的数学问题要低得多。

Epochai以Frontiermath背后的研究公司而闻名。

用户现在对这些新的基准有反应，呼吁Openai对其透明度和假定的错误索赔。

但是，TechCrunch报告说，尽管该百分比有所不同，但先前的OpenAI主张与Epoch的较低分数相匹配，ARC奖基金会声称该公共O3模型已调用用于聊天，并且与较早的测试相关。

Openai已经趋势了几个星期，这并不仅仅是因为其大型语言模型可以做到的最新力量，但最尤其是因为他们使Chatgpt具有本地生成图像的能力。

用户可以直接访问聊天机器人，并要求它创建不同类型的图像，而不是依靠DALL-E，而是包括吉卜力风格的一种或流行的“芭比娃娃盒”挑战。

除此之外，Openai还为Chatgpt对其以学术为中心的功能有了很大的推动，尤其是现在已经有了深度研究工具。虽然它仍然需要付费订阅才能访问，但用户不再需要每月支付200美元即可获得更强大的聊天机器人版本，该版本具有其能力来帮助学习的能力。