Openai长期以来,一直在吹捧其人工智能(AI)开发的能力,尤其是在其O系列模型中具有推理和更高级功能的模型。
该公司对其O3模型的能力提出了重大主张,该公司去年揭幕了该模型,其中包括其解决Frontiermath的更复杂数学问题的能力。
Openai O3型号较低基准惨败
Openai首席研究官Mark Chen以前在直播中揭示视频表明该公司的O3模型是强大的,并且它是如此高级,它可以回答超过25%的Frontiermath问题,而Trontiermath中发现的问题对于用户和机器有一系列具有挑战性的问题。
但是,这是由时代(通过TechCrunch)其最近对O3模型的独立基准测试表明,Openai的主张实际上并不是真实的。
独立测试揭示了Openai的O3只能回答聊天机器人提出的数学问题的10%,与他们的主张相比,它的数学问题要低得多。
Epochai以Frontiermath背后的研究公司而闻名。
用户在AI透明度上有OpenAI的问题
用户现在对这些新的基准有反应,呼吁Openai对其透明度和假定的错误索赔。
但是,TechCrunch报告说,尽管该百分比有所不同,但先前的OpenAI主张与Epoch的较低分数相匹配,ARC奖基金会声称该公共O3模型已调用用于聊天,并且与较早的测试相关。
Openai的Chatgpt进步
Openai已经趋势了几个星期,这并不仅仅是因为其大型语言模型可以做到的最新力量,但最尤其是因为他们使Chatgpt具有本地生成图像的能力。
用户可以直接访问聊天机器人,并要求它创建不同类型的图像,而不是依靠DALL-E,而是包括吉卜力风格的一种或流行的“芭比娃娃盒”挑战。
除此之外,Openai还为Chatgpt对其以学术为中心的功能有了很大的推动,尤其是现在已经有了深度研究工具。虽然它仍然需要付费订阅才能访问,但用户不再需要每月支付200美元即可获得更强大的聊天机器人版本,该版本具有其能力来帮助学习的能力。