DeepSeek正在向世界各地发送冲击波。这就是原因。

中国人（AI）DeepSeek公司已发送通过技术界的冲击波，通过发布极其高效的AI模型，可以与OpenAI和Anthropic等美国公司的尖端产品竞争。

DeepSeek成立于2023年取得了结果竞争对手的现金和计算能力很少。

DeepSeek上周发布的“推理” R1模型引起了研究人员的兴奋，投资者之间的震惊以及AI重量级人物的回应。该公司于1月28日跟进模型可以与图像和文本一起使用。

那么DeepSeek做了什么，它是如何做到的？

DeepSeek做了什么

12月，DeepSeek发布了V3模型。这是一个非常强大的“标准”大语言模型，其性能与OpenAI的GPT-4O和Anthropic的Claude 3.5相似。

这些模型容易出错，并且有时会弥补自己的事实，他们可以执行诸如回答问题，撰写论文和生成计算机代码之类的任务。在一些测试解决问题和数学推理的得分比普通人的得分更好。

V3接受了训练报告的成本约558万美元。例如，这比GPT-4便宜超过1亿美元发展。

DeepSeek还声称已经使用了大约2,000个专业计算机芯片训练了V3，特别是NVIDIA制造的H800 GPU。这又比其他公司少得多最多16,000在更强大的H100芯片中。

1月20日，DeepSeek发布了另一个模型称为R1。这是一个所谓的“推理”模型，它试图逐步解决复杂问题。这些模型在许多需要上下文并具有多个相互关联的部分（例如阅读理解和战略计划）上似乎更好。

R1模型是V3的调整版本，并通过一种称为强化学习的技术进行了修改。 R1似乎在类似的水平上工作Openai的O1，去年发行。

DeepSeek还使用相同的技术制作可以在家用计算机上运行的小型开源模型的“推理”版本。

该版本引起了人们对DeepSeek的极大兴趣，推动了它的受欢迎程度V3驱动的聊天机器人应用程序并触发a大规模价格崩溃作为投资者的技术股票，重新评估了人工智能行业。在写作时，芯片制造商Nvidia损失了约6000亿美元价值。

DeepSeek的突破是提高效率：通过更少的资源获得良好的效果。尤其是，DeepSeek的开发人员开发了两种技术，这些技术可能会更广泛地采用。

第一个与称为“稀疏性”的数学思想有关。 AI模型具有许多参数，可以确定其对输入的响应（V3的响应约为6710亿），但仅将这些参数的一小部分用于任何给定输入。

但是，预测需要哪些参数并不容易。 DeepSeek使用了一种新技术来做到这一点，然后仅训练了这些参数。结果，其模型所需的培训要比常规方法要少得多。

另一个技巧与V3如何在计算机内存中存储信息有关。 DeepSeek找到了一种压缩相关数据的巧妙方法，因此更容易存储和快速访问。

DeepSeek的模型和技术已在免费下发布我的许可证，这意味着任何人都可以下载并修改它们。

对于某些AI公司而言，这可能是个坏消息，这些公司的利润可能会被免费可用，有力的模型所侵蚀 - 这对更广泛的AI研究社区来说是个好消息。

目前，许多AI研究都需要访问大量的计算资源。像我这样的研究人员在大学（或大型科技公司以外的任何地方）的研究人员的进行测试和实验的能力有限。

更有效的模型和技术改变了情况。对于我们来说，实验和开发可能会变得更加容易。

对于消费者而言，获得AI的访问也可能会更便宜。可以在用户自己的设备（例如笔记本电脑或电话）上运行更多的AI型号，而不是以订阅费用“在云中”运行。

对于已经拥有大量资源的研究人员来说，更高的效率可能会较小。目前尚不清楚DeepSeek的方法是否有助于使整体性能更好，或者只是更有效的模型。

Tongliang Liu，副教授和悉尼AI中心的董事悉尼大学

本文从对话在创意共享许可下。阅读原始文章。