正如預期的那樣,NVIDIA作為從AI崛起中受益最大的公司之一,受益於GTC(GPU技術大會),將於本週在加州聖荷西舉行,展示其新的 GPU;還沒有GeForce RTX 50 系列,而是Blackwell GPU 適用於資料中心,該公司已經預計其需求非常強勁。其執行長黃仁勳由此推出了H100、H200和GH200的後繼產品:與前兩者一致的B100和B200,以及繼承了後者的GB200。
布萊克威爾,我沒有通過 au MCM
人們已經期待了幾個月,現在已經正式宣布:Blackwell 架構標誌著 MCM 設計的採用(多晶片模組)。 AMD 已使用它,它比舊的單片設計具有更大的靈活性。 Blackwell 受惠於台積電的 4NP (4nm) 製程。
明星當然是 B200。它回應了 Jensen Huang 提出的需求,“擁有更大的 GPU”以滿足生成式人工智慧的需求。舞台上,穿皮夾克的人直接將Hopper晶片與Blackwell GPU進行了比較;事實上,存在尺寸差異。然而,Hopper 辯稱,B200 並不是傳統意義上的單一 GPU。它由兩塊作為統一 CUDA GPU 工作的晶片組成。它們透過 NV-HBI 連接(NVIDIA 高頻寬介面) de 10 To/s。
在不列出數值的情況下,B200 擁有 2080 億個晶體管,而 H100 / H200 則為 800 億個。該晶片配備 192 GB HBM3e 內存,頻寬為 8 TB/s,AI 性能比其型號高出五倍。更具體地說,Blackwell 的每個晶片在 FP8 中的訓練性能是其前身的 2.5 倍,在 FP4 中的推理性能是其前身的 5 倍。但請注意,FP4 精度是特定於新的 Blackwell 架構(也新增了新的 FP6 格式)。因此,我們必須依靠 FP8 來比較 Blackwell 和 Hopper。此外,功耗也會增加,每個晶片的功耗約為 1000 W,而 Hopper GPU 的功耗為 700 W。
此外,第五代 NVLink 互連速度是 Hopper 的兩倍,支援多達 576 個 GPU。
B100無權獲得如此完整的展示。正如其數字所示,它的功能預計會比其型號稍弱一些。 NVIDIA 只是在某些產品中提到了這一點,例如下面提到的 HGX B100。我們來自 AnandTech 的同事表示,這是一個擁有 1,040 億個電晶體的單晶片,但這一說法需要得到證實。
B200 有各種口味可供選擇
回到B200,它也將用於GB200 Grace Blackwell。它是 GH200 Grace Hopper Superchip 的後代。我們找到了一對與 NVIDIA Grace CPU(72 個 Arm Neoverse V2 核心)相關的 B200。該套件擁有高達 384 GB 的 HBM3e。 TDP 為 2700W。
為了完整起見,我們還要提一下 DGX B200 站,它配備 8 個 B200 GPU 和兩個 Intel Xeon Platinum 8570 處理器;並且,談談配備 8 個 SXM 格式 B200 / B100 GPU 的 B100、HGX B200 和 HGX B100(伺服器 PCI Express 模組)。
最後,與負責管理 NVLink 互連的稱為 NVLink Switch 的其他晶片相結合,GB200 成為 GB200 NVL72(多節點、液冷、機架規模系統)的構建塊。選單上:36 個 Grace CPU 和 72 個 Blackwell GPU,可實現 720 petaflops 的 AI 訓練效能和 1.4 exaflops 的 AI 推理效能。
對於GB200 NVL72,黃仁勳表示:「就在我們說話的時候,地球上只有幾台百億億級機器,也許三台。這是單機架中的百億億次人工智慧系統”。
讓我們以一點文化筆記來結束。 NVIDIA 架構的名稱是為了向加州大學柏克萊分校專門研究博弈論和統計學的數學家 David Harold Blackwell 致敬,他也是第一位入選 NVIDIA 的黑人研究員。美國國家科學院。
來源 : 英偉達