Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

为什么 DeepSeek 能够改变游戏规则?科学家们解释了人工智能模型的工作原理以及它们的构建成本如此之低的原因。

  • 2025-01-31
  • Armanda
DeepSeek是来自中国的新型人工智能(AI)模型。 (图片来源:Thomas Fuller/SOPA Images/LightRocket via Getty Images)

不到两周前,一家鲜为人知的中国公司发布了最新的(人工智能)模型并在世界范围内引起了冲击波。

DeepSeek 在一份上传至的技术论文中声称GitHub其开放式重量 R1 模型实现了可比较或更好的结果比一些领先的硅谷巨头制作的人工智能模型——即 OpenAI 的 ChatGPT、Meta 的 Llama 和 Anthropic 的 Claude。最令人惊讶的是,该模型以极低的成本进行训练和运行,却取得了这些结果。

Nvidia 是一家生产被认为对 AI 训练至关重要的高端 H100 图形芯片的公司,该公司的估值损失了 5890 亿美元。美国历史上最大单日市场跌幅。毕竟,DeepSeek 表示,它在没有它们的情况下训练了人工智能模型——尽管它确实使用了性能较差的 Nvidia 芯片。美国科技公司的反应是恐慌和愤怒,OpenAI 代表甚至暗示 DeepSeek抄袭其模型的部分内容。

有关的:

人工智能专家表示,DeepSeek 的出现颠覆了支撑该行业增长方式的一个关键教条——表明越大并不总是越好。

“事实上,DeepSeek 可以用更少的钱、更少的计算和更少的时间构建,并且可以在更便宜的机器上本地运行,这一事实表明,随着每个人都竞相变得越来越大,我们错过了构建更智能、更小型的机会,”克里斯蒂安·哈蒙德,西北大学计算机科学教授在一封电子邮件中告诉《生活科学》。

但是什么让 DeepSeek 的 V3 和 R1 模型如此具有颠覆性呢?科学家说,关键是效率。

是什么让 DeepSeek 的模型发挥作用?

“在某些方面,DeepSeek 的进步更多的是进化性而非革命性,”安布吉·特瓦里密歇根大学统计和计算机科学教授告诉《生活科学》。 “他们仍然在非常大的模型(数百亿个参数)、非常大的数据集(数万亿个代币)和非常大的预算的主导范式下运行。”

Tewari 表示,如果我们从表面上看 DeepSeek 的说法,那么该公司方法的主要创新在于它如何利用其庞大而强大的模型来运行与其他系统一样好的运行,同时使用更少的资源。

其关键在于“专家混合”系统,该系统将 DeepSeek 的模型拆分为子模型,每个子模型专门处理特定的任务或数据类型。这伴随着一个承载系统,它不像其他模型那样应用整体惩罚来减慢负担过重的系统,而是动态地将任务从过度工作的子模型转移到工作不足的子模型。

“[这]意味着即使 V3 模型有 6710 亿个参数,但任何给定代币实际上只有 370 亿个参数被激活,”Tewari 说。令牌是指大语言模型(LLM)中的处理单元,相当于一块文本。

进一步实现这种负载平衡的是一种称为“推理时间计算扩展”的技术,这是 DeepSeek 模型中的一个旋钮,可以向上或向下调整分配的计算以匹配分配任务的复杂性。

这种效率延伸到了 DeepSeek 模型的训练,专家将此视为美国出口限制的意外后果。由于对 Nvidia 最先进的 H100 芯片的访问受到限制,因此 DeepSeek 声称它转而使用 H800 芯片构建模型,而 H800 芯片的芯片间数据传输速率较低。 Nvidia 在 2023 年专门设计了这款“较弱”的芯片,以规避出口管制。

由于美国的出口限制,Nvidia H100 GPU芯片被禁止在中国销售。(图片来源:盖蒂图片社)

一种更高效的大型语言模型

使用这些功能较弱的芯片的需求迫使 DeepSeek 做出另一项重大突破:其混合精度框架。它没有使用 32 位浮点数 (FP32) 来表示模型的所有权重(设置 AI 模型人工神经元之间连接强度的数字),而是使用不太精确的 8 位数字 (FP8) 来训练模型的一部分,在精度很重要的情况下仅切换到 32 位以进行更困难的计算。

“这可以用更少的计算资源进行更快的训练,”曹托马斯塔夫茨大学技术政策教授告诉《生活科学》。 “DeepSeek 还改进了其训练流程的几乎每一步——数据加载、并行化策略和内存优化——从而在实践中实现了非常高的效率。”

同样,虽然使用人类提供的标签来训练 AI 模型来对答案和推理的准确性进行评分是很常见的,但 R1 的推理是无监督的。它仅使用数学和编码等任务中最终答案的正确性作为其奖励信号,从而释放培训资源以在其他地方使用。

所有这些加起来构成了一对效率惊人的模型。虽然 DeepSeek 竞争对手的培训成本达到了数千万至数亿美元通常需要几个月的时间,DeepSeek 代表表示该公司在两个月内训练了 V3仅售 558 万美元。 DeepSeek V3 的运行成本同样很低 —21次运行起来比Anthropic 的克劳德 3.5 十四行诗。

曹谨慎地指出,DeepSeek 的研发,包括其硬件和大量的试错实验,意味着几乎可以肯定它的花费远远超过这个 558 万美元的数字。尽管如此,成本的大幅下降仍然足以让竞争对手措手不及。

总体而言,人工智能专家表示,DeepSeek 的流行可能对该行业产生积极的影响,降低过高的资源成本,并降低研究人员和公司的进入门槛。它还可以为比英伟达更多的芯片制造商创造参与竞争的空间。但它也有其自身的危险。

曹说:“随着开发尖端人工智能模型的更便宜、更有效的方法变得公开,它们可以让世界各地更多的研究人员追求尖端的法学硕士开发,从而有可能加速科学进步和应用程序创建。” “与此同时,这种较低的进入门槛带来了新的监管挑战——不仅仅是中美竞争——关于国家和非国家行为者滥用先进人工智能或潜在的不稳定影响。”

相關貼文

难以捉摸的“ Blaze Star” Nova终于在我们的天空中出现在我们的天空中,此后多次虚假警报

难以捉摸的“ Blaze Star” Nova终于在我们的天空中出现在我们的天空中,此后多次虚假警报

内华达州蕴藏着巨大的锂矿藏。原因如下。

内华达州蕴藏着巨大的锂矿藏。原因如下。

令人难以置信的照片显示了超级质量的黑洞,将物质喷气式飞机吹入星际空间

令人难以置信的照片显示了超级质量的黑洞,将物质喷气式飞机吹入星际空间

在南极洲发现的古代鸭子般的生物可能是有史以来发现的最古老的现代鸟

在南极洲发现的古代鸭子般的生物可能是有史以来发现的最古老的现代鸟

Croesus Stater:2500年历史的硬币,引入了黄金标准

Croesus Stater:2500年历史的硬币,引入了黄金标准

人工智能可以识别下一种抗超级细菌的药物

人工智能可以识别下一种抗超级细菌的药物

“也许只是时间问题”:聪明的生活可能比首先想到的可能更有可能

“也许只是时间问题”:聪明的生活可能比首先想到的可能更有可能

“历史上令人难以置信的时刻:''粒子加速器和AI首次提供了2000年历史的大力滚动

“历史上令人难以置信的时刻:''粒子加速器和AI首次提供了2000年历史的大力滚动

“令人沮丧和激怒”:世界上的富人正在购买T. Rex化石,这阻碍了研究

“令人沮丧和激怒”:世界上的富人正在购买T. Rex化石,这阻碍了研究

熱門閱讀

  • 三种美国壁虱物种可能会引起神秘的红肉过敏 2025-04-15
  • 神经网络可以通过视频识别生产过程,以提高工业安全和效率 2025-03-26
  • 罕见的有氧细菌发现会分解“永远的化学物质” 2025-01-27
  • 物理学家发现了一个可以增强量子技术的磁突破 2025-02-23
  • 人类为何进化出大大脑?一个新想法预示着我们的未来 2024-11-24
  • 野生洞穴鱼可以在几乎不睡觉的情况下生存 2024-11-09
  • NASA 寻求创新的阿耳忒弥斯月球物流、移动解决方案 2024-09-29
  • 东太平洋研究强调严重的冷水漂白是对深海珊瑚礁生态系统的额外威胁 2024-10-01
  • 令人难以置信的照片显示了超级质量的黑洞,将物质喷气式飞机吹入星际空间 2025-04-05
  • 在Covid-19大流行后,英格兰的老年人更加满意 2025-02-02

上升趨勢

  • Freebox Pop S機器引誘橙色,Bouygues和SFR訂戶 2025-04-18
  • 維基百科剛剛給AI部門贈送了巨大的禮物 2025-04-18
  • 昆士蘭州洪水中的bilbies“會很好” 2025-04-17
  • 橙色後機:Livebox 6已經回來了 2025-04-18
  • 唐納德·特朗普(Donald Trump)在半導體上收緊絞索...對美國經濟的冒險賭注 2025-04-18
  • 地球水的起源可能不像我們想像的那麼複雜 2025-04-17
  • 這不是iPad,但性能很瘋狂,價格便宜2倍 2025-04-18
  • Google失去了針對其廣告帝國的審判 2025-04-18
  • 發現一個新血統:為什麼它可以挽救生命 2025-04-18
  • Vega OS:亞馬遜想用Android切斷電線 2025-04-18

最近發布

  • 排名:美国增长最快的就业岗位(2023-2033F) 2024-09-24
  • 12 辆巴士改装成带轮子的精美小房子 2025-03-30
  • 切维厄特海滩之谜:哈罗德·霍尔特的奇怪失踪 2024-10-28
  • 玻璃革命:“超级赛车”可以产生抗刮擦,雾和眩光的眼镜和电话屏幕 2025-03-10
  • 人们在 90 年代所做的事情在今天看来绝对是奇怪的 2024-11-23
  • 在客厅发现的Delacroix绘画前往拍卖 2025-03-04
  • 柏拉图的菲莱布斯:什么是虚假的快乐? 2024-10-28
  • 古生物学家发现哥比沙漠中大型黑核恐龙的足迹 2025-01-31
  • Fox Sports 1 2025 年不会播放印地赛车比赛 2024-12-26
  • 韦伯发现了非常罕见的“爱因斯坦戒指” 2025-04-02

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜