中国人(AI)DeepSeek公司已发送通过技术界的冲击波,通过发布极其高效的AI模型,可以与OpenAI和Anthropic等美国公司的尖端产品竞争。
DeepSeek成立于2023年取得了结果竞争对手的现金和计算能力很少。
DeepSeek上周发布的“推理” R1模型引起了研究人员的兴奋,投资者之间的震惊以及AI重量级人物的回应。该公司于1月28日跟进模型可以与图像和文本一起使用。
那么DeepSeek做了什么,它是如何做到的?
DeepSeek做了什么
12月,DeepSeek发布了V3模型。这是一个非常强大的“标准”大语言模型,其性能与OpenAI的GPT-4O和Anthropic的Claude 3.5相似。
这些模型容易出错,并且有时会弥补自己的事实,他们可以执行诸如回答问题,撰写论文和生成计算机代码之类的任务。在一些测试解决问题和数学推理的得分比普通人的得分更好。
V3接受了训练报告的成本约558万美元。例如,这比GPT-4便宜超过1亿美元发展。
DeepSeek还声称已经使用了大约2,000个专业计算机芯片训练了V3,特别是NVIDIA制造的H800 GPU。这又比其他公司少得多最多16,000在更强大的H100芯片中。
1月20日,DeepSeek发布了另一个模型称为R1。这是一个所谓的“推理”模型,它试图逐步解决复杂问题。这些模型在许多需要上下文并具有多个相互关联的部分(例如阅读理解和战略计划)上似乎更好。
R1模型是V3的调整版本,并通过一种称为强化学习的技术进行了修改。 R1似乎在类似的水平上工作Openai的O1,去年发行。
DeepSeek还使用相同的技术制作可以在家用计算机上运行的小型开源模型的“推理”版本。
该版本引起了人们对DeepSeek的极大兴趣,推动了它的受欢迎程度V3驱动的聊天机器人应用程序并触发a大规模价格崩溃作为投资者的技术股票,重新评估了人工智能行业。在写作时,芯片制造商Nvidia损失了约6000亿美元价值。
有多深
DeepSeek的突破是提高效率:通过更少的资源获得良好的效果。尤其是,DeepSeek的开发人员开发了两种技术,这些技术可能会更广泛地采用。
第一个与称为“稀疏性”的数学思想有关。 AI模型具有许多参数,可以确定其对输入的响应(V3的响应约为6710亿),但仅将这些参数的一小部分用于任何给定输入。
但是,预测需要哪些参数并不容易。 DeepSeek使用了一种新技术来做到这一点,然后仅训练了这些参数。结果,其模型所需的培训要比常规方法要少得多。
另一个技巧与V3如何在计算机内存中存储信息有关。 DeepSeek找到了一种压缩相关数据的巧妙方法,因此更容易存储和快速访问。
这意味着什么
DeepSeek的模型和技术已在免费下发布我的许可证,这意味着任何人都可以下载并修改它们。
对于某些AI公司而言,这可能是个坏消息,这些公司的利润可能会被免费可用,有力的模型所侵蚀 - 这对更广泛的AI研究社区来说是个好消息。
目前,许多AI研究都需要访问大量的计算资源。像我这样的研究人员在大学(或大型科技公司以外的任何地方)的研究人员的进行测试和实验的能力有限。
更有效的模型和技术改变了情况。对于我们来说,实验和开发可能会变得更加容易。
对于消费者而言,获得AI的访问也可能会更便宜。可以在用户自己的设备(例如笔记本电脑或电话)上运行更多的AI型号,而不是以订阅费用“在云中”运行。
对于已经拥有大量资源的研究人员来说,更高的效率可能会较小。目前尚不清楚DeepSeek的方法是否有助于使整体性能更好,或者只是更有效的模型。
Tongliang Liu,副教授和悉尼AI中心的董事悉尼大学