DGX GH200 是专为 ChatGPT 等 LLM 设计的,它是一个怪物,其关键组件(CPU、GPU 以及网络芯片)均由 Nvidia 设计,有望为生成式 AI 带来巨大的动力提升。
功率和能源效率的怪物:这就是 Nvidia 在台北国际电脑展上发布的第一台超级计算机所承诺的。一台名为 DGX GH200 的机器有望实现所谓的百亿亿次算力,而能耗仅为竞争对手 x86 机器的一小部分……并且以承诺的速度实现无并行。 Nvidia 的创始人兼首席执行官、好斗的黄仁勋大张旗鼓地展示了这台机器,它是 Nvidia 的一个实现。
作为 GPU 计算领域的 Archi 领导者,Nvidia 在处理器方面却是个侏儒。如果这位加州人在 CPU 方面拥有公认的专业知识,那么我们最了解他的就是他的 Tegra 处理器。我们已经在 Windows 8 PC 或著名的 Nintendo Switch 中遇到过 SoC。然而,英伟达为数据中心开发的芯片以及这里的超级计算机的功率却完全不同。名为 Grace Hopper Superchip 的主芯片实际上是一个二重奏。一侧是“Grace”芯片,一个 72 核 ARM Neoverse V2 CPU,另一侧是“Hopper”H100 GPU。两者均受益于 96 GB 超高速 HBM3 内存 (GPU) 和 512 GB LPDDR5X (CPU)。
采用 256 个 GH200 卡,结合 CPU、GPU 和 RAM,您最终将获得这么多 GPU、18,432 个 ARM CPU 内核和 144TB 共享 DDR5 内存。构成 DGX GH200 的套件的优势在于 Nvidia 已成为高速网络领域的冠军。
像单个 GPU 一样工作的超级计算器
自从2019年收购Mellanox(在英特尔眼皮子底下,英特尔也想收购这家以色列旗舰店)以来,英伟达已经推出了专为超级计算机设计的高性能网络产品。无需赘述,这些 256 个 GH200 卡结合了 CPU、GPU 和内存,由专用网络芯片(称为 BlueField-3 和 ConnectX-7 网络适配器的 DPU)控制和互连。一方面,CPU 和 GPU 通过一种名为 NVLink-C2C 的技术以非常高的速度相互“对话”(是的,有很多名称和缩写词!),这使得它们能够以 900 GB/s 的速度交换数据(是的,你没看错)。但最重要的是,其他网络芯片允许无损数据交换,而且速度非常高。
另请阅读: Nvidia 推出首款专为人工智能设计的 ARM 处理器 Grace(艾薇儿 2021)
在舞台上,黄仁勋解释说,他的庞然大物有很多优势(逻辑上,他是来推销的)。事实上,其中一个非常特殊:整个超级计算机像单个加速器一样被控制。当我们知道信息的分布和网络节点的各种瓶颈是充分利用芯片原始能力的主要障碍时,这是一项壮举。这样做的好处是开发人员不必做任何特殊的事情:无需进行代码调整即可有效地分发它。这个巨人的编程和操作就像单个 GPU 一样。并且展现出令人疯狂的力量。
如果我们知道品牌总是就适合他们的绩效衡量标准进行沟通(我们称之为« 樱桃采摘 »(英文术语),一些 Nvidia 图表令人眼花缭乱。这个由 256 个 Grace Hopper 超级芯片组成的怪物可发送 1 ExaFLOPS 的计算能力,在某些用途中比同等设备的计算能力高出 244 倍。问题在于细节,有必要详细说明这些“某些用途”是什么。
为人工智能打造的野兽
DGX GH200 有足够的能力进行许多计算,但其所谓的单位《变形金刚》,他首先是人工智能执行之王,更具体地说,他是执行人工智能的国王。大型语言模型。这些著名的法学硕士,其中最著名的是已经必不可少的聊天GPT。在这个领域,它拥有大量的核心以及管理庞大数据的能力。水池从记忆中看,这似乎是相对于竞争对手的关键优势……在这一领域。该机器在科学计算等其他领域的表现如何,以便能够与英特尔或 AMD 提供的产品进行比较,还有待观察。
Nvidia 在用于“经典”技术和科学任务的 GPU 领域已经占据了绝对主导地位,并且已经在大力销售其产品,现在在所谓的生成人工智能领域似乎是孤军奋战。尽管该领域的所有制造商都已经开始使用其 GPU,但 DGX GH200 似乎拥有在竞争对手消失之前将其埋葬的武器。因此,谷歌云、Meta 和微软将成为这款超级计算器的首批客户,然后将其出售给其他人。而英伟达的老板甚至宣布公司要生下自己的宝宝来继续完善。并随着时间的推移使其变得更加强大。
英伟达掌握一切,价值爆炸
DGX GH200 令人印象深刻,因为 Nvidia 掌握了所有重要组件。即CPU、GPU,还有网络处理器。虽然英特尔刚刚进入专业 GPU 市场(凭借 Ponte Vecchio),而 AMD 目前正在努力将其解决方案强加给 Nvidia,但这个带有绿色标志的品牌为其超级计算器设计了所有链条。这对这家没有 x86 许可证的公司来说是一个小小的报复,而且到目前为止,它还无法与 Intel 和 AMD(以及在 Power 架构仍然大放异彩的某些应用程序中与 IBM 竞争)。
它重达 40 吨,由 240 公里光缆和 2,112 个 60 毫米风扇组成,预计将于年内投入使用。如果结果已经存在并且人工智能浪潮加强(但你怎么能打相反的赌注),那么这家现在在股市上市值超过 1 万亿美元的公司可能会继续爆炸。谁知道呢,加入价值超过 20000 亿美元的精选公司俱乐部。对于一家最初向 PC 游戏玩家销售 3D 显卡而取得成功的公司来说,这还算不错!