中国人(AI)公司DeepSeek已发送科技界的冲击波,发布了极其高效的人工智能模型,可以与 OpenAI 和 Anthropic 等美国公司的尖端产品竞争。
DeepSeek 成立于 2023 年,取得了成果其现金和计算能力只是竞争对手的一小部分。
DeepSeek上周发布的“推理”R1模型引起了研究人员的兴奋、投资者的震惊以及人工智能重量级人物的回应。该公司于1月28日跟进一个模型可以处理图像和文本。
那么 DeepSeek 做了什么,又是如何做到的呢?
12 月,DeepSeek 发布了V3型号。这是一个非常强大的“标准”大型语言模型,其性能与 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 类似。
虽然这些模型很容易出错并且有时自己编造事实,他们可以执行诸如回答问题、撰写论文和生成计算机代码等任务。在一些测试在解决问题和数学推理方面,他们的得分高于普通人。
V3 的训练地点为报告成本约558万美元。例如,这比 GPT-4 便宜得多,其成本超过1亿美元发展。
DeepSeek 还声称使用了大约 2,000 个专用计算机芯片来训练 V3,特别是NVIDIA 制造的 H800 GPU。这又比其他可能使用过的公司少得多最多 16,000更强大的 H100 芯片。
1月20日,DeepSeek发布了另一个模型,称为R1。这就是所谓的“推理”模型,试图一步步解决复杂的问题。这些模型似乎更适合许多需要上下文且具有多个相互关联部分的任务,例如阅读理解和战略规划。
R1 模型是 V3 的调整版本,采用强化学习技术进行修改。 R1 的工作水平似乎与OpenAI 的 o1,去年发布。
DeepSeek 还使用相同的技术来制作可以在家用计算机上运行的小型开源模型的“推理”版本。
此次发布引发了人们对 DeepSeek 的巨大兴趣,推高了其受欢迎程度V3 支持的聊天机器人应用程序并触发一个大规模的价格暴跌随着投资者重新评估人工智能行业,科技股受到关注。在撰写本文时,芯片制造商 NVIDIA损失约6000亿美元在价值上。
DeepSeek 是如何做到的
DeepSeek 的突破在于实现更高的效率:用更少的资源获得良好的结果。特别是,DeepSeek 的开发人员开创了两种可能被人工智能研究人员更广泛采用的技术。
第一个与称为“稀疏性”的数学概念有关。 AI 模型有很多参数决定它们对输入的响应(V3 有大约 6710 亿个),但这些参数中只有一小部分用于任何给定的输入。
然而,预测需要哪些参数并不容易。 DeepSeek 使用一种新技术来做到这一点,然后仅训练这些参数。因此,它的模型需要的训练比传统方法少得多。
另一个技巧与 V3 如何在计算机内存中存储信息有关。 DeepSeek 找到了一种巧妙的方法来压缩相关数据,因此更容易存储和快速访问。
这意味着什么
DeepSeek的模型和技术已经免费发布我的许可证,这意味着任何人都可以下载和修改它们。
虽然这对一些人工智能公司来说可能是个坏消息——它们的利润可能会因免费提供的强大模型的存在而受到侵蚀——但对更广泛的人工智能研究社区来说却是个好消息。
目前,许多人工智能研究需要访问大量的计算资源。像我这样在大学(或除大型科技公司之外的任何地方)工作的研究人员进行测试和实验的能力有限。
更有效的模型和技术改变了这种情况。现在,实验和开发对我们来说可能变得更加容易。
对于消费者来说,使用人工智能也可能变得更便宜。更多的人工智能模型可能会在用户自己的设备上运行,例如笔记本电脑或手机,而不是在“云端”运行以收取订阅费。
对于已经拥有大量资源的研究人员来说,提高效率可能效果较小。目前尚不清楚 DeepSeek 的方法是否有助于构建整体性能更好的模型,或者只是更高效的模型。
Tongliang Liu,副教授悉尼人工智能中心主任悉尼大学









