不到两周前,一家鲜为人知的中国公司发布了最新(AI)模型并在世界各地发送冲击波。
DeepSeek在上传到的技术论文中声称Girub它的开放重量R1模型达到了可比或更好的结果与一些领先的硅谷巨头制作的AI模型相比,Openai的Chatgpt,Meta的Llama和Anthropic的Claude制作了。最令人震惊的是,该模型在接受培训和运行的一小部分时实现了这些结果。
周一对新闻的市场反应是敏锐而残酷的:随着DeepSeek升起在Apple的App Store中,从领先的美国科技公司的估值中消除了1万亿美元。
NVIDIA是一家制造高端H100图形芯片的公司美国历史上最大的一日市场损失。 DeepSeek毕竟说,它在没有它们的情况下训练了其AI模型,尽管它确实使用了功能较小的Nvidia芯片。美国科技公司对恐慌和愤怒做出了回应,Openai代表甚至暗示了DeepSeek它的模型的窃点。
有关的:
AI专家说,DeepSeek的出现颠覆了一个关键的教条,这是该行业增长方法的基础 - 表明更大并不总是更好。
“ DeepSeek可以以更少的钱,更少的计算和更少的时间来建造,并且可以在较便宜的机器上运行,这一事实认为,当每个人都朝着越来越大的时候竞赛时,我们错过了建造更聪明和更小的机会,克里斯蒂安·哈蒙德(Kristian Hammond),西北大学的计算机科学教授在一封电子邮件中告诉Live Science。
但是,是什么使DeepSeek的V3和R1模型如此破坏性?科学家说,关键是效率。
是什么使DeepSeek的型号打勾?
“在某些方面,DeepSeek的进步比革命性的进化更为进化,”Ambuj Tewari密歇根大学的统计与计算机科学教授告诉Live Science。 “它们仍在非常大的数据集(数万亿个代币)的主要模型(十亿个参数)的主要范式下运行,预算很大。”
图里说,如果我们以DeepSeek的说法为面值,那么该公司方法的主要创新是它如何运用其大型和强大的模型来运行以及其他系统,同时使用较少的资源。
关键是“专家的混合物”系统,该系统将DeepSeek的模型分成多个专门从事特定任务或数据类型的子模型。这伴随着一个负载系统,该系统没有像其他模型那样施加整体惩罚来减慢负担重大的系统,而是动态地将任务从工作过度转移到工作不足的子模型。
Tewari说:“ [这]意味着,即使V3模型具有6710亿个参数,但实际上只有370亿次的参数被激活。”令牌是指大语言模型(LLM)的处理单元,相当于一部分文本。
进一步促进这种负载平衡是一种称为“推理时间计算缩放”的技术,它是DeepSeek模型中的一个拨号,该拨号将向上或向下分配的计算以匹配分配任务的复杂性。
这种效率扩展到对DeepSeek模型的培训,专家认为这是美国出口限制的意外结果。访问NVIDIA的最先进的H100芯片的访问权限是有限的,因此DeepSeek声称它使用H800芯片构建了其型号,H800芯片的芯片到芯片数据传输速率降低。 NVIDIA在2023年设计了这种“较弱”的芯片,专门避免出口控件。
更有效的大语言模型类型
需要使用这些功能较低的芯片迫使DeepSeek进行另一个重大突破:其混合精确框架。它没有使用32位浮点数(FP32)代表其所有模型的重量(数字设定了AI模型的人工神经元之间的连接强度),而是训练了其模型的一部分,其部分具有较低的8位数字(FP8),仅切换到32位,以便在精确度很重要的情况下更难计算。
“这允许使用更少的计算资源进行更快的培训,”托马斯曹塔夫茨大学技术政策教授,告诉现场科学。 “ DeepSeek也几乎完善了培训管道的每个步骤 - 数据加载,并行化策略和内存优化 - 以便在实践中实现非常高的效率。”
同样,尽管使用人提供的标签来训练AI模型以评分答案和推理的准确性,但R1的推理却是无监督的。它仅在数学和编码奖励信号等任务中使用最终答案的正确性,从而释放了可以在其他地方使用的培训资源。
所有这些都加起来是一对令人惊讶的型号。虽然DeepSeek竞争对手的培训费用遇到了数千万到数亿美元DeepSeek代表说,该公司在两个月内接受了V3培训,而且经常需要几个月只需558万美元。 DeepSeek V3的运行成本类似 - 21次比运行便宜拟人的克劳德3.5十四行诗。
CAO谨慎地注意到,DeepSeek的研发(包括其硬件和大量反复试验实验)几乎意味着它几乎肯定要花费的558万美元数字。尽管如此,它的成本仍然足够大,可以使竞争对手平整地抓住竞争对手。
总体而言,AI专家说,DeepSeek的受欢迎程度可能对该行业有利,这使资源降低并降低了研究人员和公司的进入障碍。它还可以为比Nvidia提供更多的芯片制造商的空间参加比赛。然而,它也带来了自己的危险。
Cao说:“随着更便宜,更有效的开发尖端AI模型的方法,它们可以允许全球更多的研究人员追求最先进的LLM开发,从而有可能加快科学进步和应用程序的创造。” “与此同时,这种较低的入境障碍提出了有关国家和非国家行为者对先进AI的滥用或潜在稳定影响的新的监管挑战,而不仅仅是美国 - 中国的竞争。”