已经向Openai的Chatgpt发布了便宜的开源竞争对手,它让一些科学家感到兴奋和硅谷担心。
DeepSeek,中国人(AI)创新背后的实验室,于2024年12月下旬揭示了其免费的大型语言模型(LLM)DeepSeek-V3和要求它建于两个月的时间仅为558万美元,这是其硅谷竞争对手所需的时间和成本的一小部分。
紧随其后的是一个更新的模特,名为DeepSeek-R1,周一(1月20日)发行。在第三方基准测试中,DeepSeek-V3匹配功能在包括解决问题,编码和数学的任务中,Openai的GPT-4O和Anthropic的Claude Sonnet 3.5(例如Meta的Llama 3.1和Alibaba的Qwen2.5),例如Meta的Llama 3.1和Alibaba的Qwen2.5。
现在,R1也有超越Chatgpt在许多相同测试中的最新O1型号。这种令人印象深刻的表现在其他模型的一小部分,其半开放源的性质以及对图形处理单元(GPU)明显较少的培训(GPU)上吸引了AI专家,并提高了中国AI模型的幽灵,超过了美国的AI模型。
“我们应该非常非常重视中国的发展。”萨蒂亚·纳德拉(Satya Nadella),Microsoft的首席执行官,Openai的战略合作伙伴,在世界经济论坛上说1月22日在瑞士的达沃斯。
有关的:
AI系统使用从人类输入中获取的培训数据学习,这使他们能够根据该培训数据集中出现的不同模式的概率生成输出。
对于大型语言模型,这些数据是文本。例如,在2023年发布的OpenAI的GPT-3.5接受了大约570GB的文本数据的培训。常见的爬行- 大约相当于大约3000亿个单词 - 从书籍,在线文章,Wikipedia和其他网页中获取。
推理模型(例如R1和O1)是标准LLM的升级版本,使用称为“思想链”的方法,重新评估其逻辑,这使他们能够以更高的精度处理更复杂的任务。
这使推理模型在寻求将AI融入其工作的科学家和工程师中很受欢迎。
但是,与Chatgpt的O1不同,DeepSeek是一种“开放权重”模型(尽管其培训数据仍然专有)使用户可以在内部凝视并修改其算法。同样重要的是用户的价格降低 - 比O1少27倍。
除了表现外,DeepSeek周围的炒作源于其成本效率。与该模型的预算相比数百万到亿万那些竞争对手花了培训竞争对手的公司。
此外,美国的出口控制限制了中国公司访问最佳AI计算芯片,迫使R1的开发人员构建更智能,更节能的算法,以弥补其缺乏计算能力的赔偿。据报道,CHATGPT需要10,000个NVIDIA GPU处理其培训数据DeepSeek工程师说,他们仅获得了2,000个取得的成果。
这将转化为有用的科学和技术应用,或者DeepSeek是否只是为ACE基准测试训练其模型,还有待观察。科学家和AI投资者正在密切关注。