已经发布了 OpenAI 的 ChatGPT 的廉价开源竞争对手,它让一些科学家感到兴奋,同时也让硅谷感到担忧。
DeepSeek,中国人这项创新背后的人工智能 (AI) 实验室于 2024 年 12 月下旬推出了免费的大语言模型 (LLM) DeepSeek-V3,声称它两个月内的培训费用仅为 558 万美元——只是其硅谷竞争对手所需时间和成本的一小部分。
现在,R1也超越ChatGPT 的最新 o1 模型在许多相同的测试中。这种令人印象深刻的性能,其成本仅为其他模型的一小部分,其半开源性质,以及其在显着减少的图形处理单元(GPU)上的训练,令人工智能专家惊叹不已,并引发了人们对中国人工智能模型超越美国同行的担忧。
“我们应该非常非常认真地对待中国的事态发展,”萨提亚·纳德拉OpenAI战略合作伙伴微软CEO在世界经济论坛上表示1 月 22 日在瑞士达沃斯举行。
有关的:
人工智能系统使用从人类输入中获取的训练数据进行学习,这使它们能够根据训练数据集中出现的不同模式的概率生成输出。
对于大型语言模型,这些数据是文本。例如,OpenAI 于 2023 年发布的 GPT-3.5 使用存储库中约 570GB 的文本数据进行训练普通爬行——大约 3000 亿字——取自书籍、在线文章、维基百科和其他网页。
推理模型,如 R1 和 o1,是标准 LLM 的升级版本,使用一种称为“思想链”的方法来回溯和分析重新评估他们的逻辑,这使他们能够更准确地处理更复杂的任务。
这使得推理模型在寻求将人工智能融入到工作中的科学家和工程师中很受欢迎。
但与 ChatGPT 的 o1 不同,DeepSeek 是一种“开放权重”模型(尽管其训练数据仍然是专有的),使用户能够查看内部并修改其算法。同样重要的是它对用户的降价——比 o1 少 27 倍。
除了其性能之外,围绕 DeepSeek 的炒作还来自其成本效率;与数千万至数亿竞争对手公司花钱培训竞争对手。
此外,美国的出口管制限制了中国企业获得最好的人工智能计算芯片,迫使R1的开发人员构建更智能、更节能的算法,以弥补计算能力的不足。据报道需要 ChatGPT10,000 个 Nvidia GPU 来处理训练数据DeepSeek 工程师表示,他们仅用 2,000 多个就获得了类似的结果。
这将在多大程度上转化为有用的科学和技术应用,或者 DeepSeek 是否只是简单地训练其模型以通过基准测试,还有待观察。科学家和人工智能投资者正在密切关注。









