据微软高管称,该公司花费了“数亿美元”来设计超级计算机,为 ChatGPT 等 OpenAI 项目提供支持。在机器的核心,最昂贵的组件是 Nvidia 最强大的专业 GPU。
除非你被锁在山洞里,否则你无法逃脱有关 OpenAI 及其宝石 ChatGPT 的新闻海啸。人工智能能够回答问题,写作业(或课程),模拟文学流派……并且也做一些恐怖。但事实是,ChatGPT 和 OpenAI 的工具是一场信息地震,向公众揭示了人工智能的强大未来。然而,人工智能并不是工程师和研究人员的帽子。模型当然会思考,但最重要的是,它们必须经过训练。这是一项消耗大量资源的操作:时间、精力和尖端设备。因为为了训练和运营 ChatGPT,OpenAI 及其资助者微软在费用上并不吝惜。根据副总裁斯科特·格思里 (Scott Guthrie) 的说法微软负责云和人工智能,该公司在该项目上花费了数亿美元。特别是在负责计算的芯片中。
OpenAI 技术的核心是微软的 Azure 云和数千台名为“ND H100 v5”的机器。这个技术名称下隐藏着一个强大的硬件模块。配备 Intel Xeon Scalable 4 处理器的服务器e一代(称为“蓝宝石急流),管理负责大部分计算的“马”(即 Nvidia GPU)的热情的处理器。不是你的旧款 GeForce,甚至不是超级 RTX 4090。不,这些是名为 H100 的专业芯片,专门针对人工智能相关任务进行了优化。如果微软没有透露英特尔 CPU 的数量或性质(“s”表示至少有两个),我们知道每台服务器集成不少于 8 个 Nvidia H100(每张卡 30,000 美元,费用一定很高! )。也就是说,6400 亿个晶体管(每个 GPU 800 亿个)通过 NVSwitch 和 NVlink 技术互连,与 2020 年的 A100 GPU 相比,计算时间最多可划分九倍。或者如何在几周内转换数月的计算。最重要的是,为英伟达带来尽可能多的资金,因为英伟达在这些超级机器的价值中占据了最大份额。
因为这些服务器的强大功能对Nvidia来说是双重优势。除了在 GPU 的原始能力方面取得成功外,它还以每个服务器机架 8 个一组的形式出售! – 带有绿色标志的公司也被选中使用其 Quantum-2 InfiniBand 芯片将服务器连接在一起。因为,在密集计算中,仅靠原始能力是不够的:您必须知道如何很好地分配任务。
Nvidia 主导计算……和网络
如果AMD以拥有比Nvidia更强大的GPU而自豪——显然,它的说法恰恰相反——这种力量只是众多其他数据中的一个。除非您家里有一台超级计算机来进行专业的性能测量——但我们没有! – 你必须全面审视这些芯片,才能看到其计算解决方案的致命武器:网络。网络和内存是提高超级计算机计算性能的真正瓶颈。
另请阅读:前沿超级计算机:AMD 是世界上最强大计算机的核心(2022 年 5 月)
英伟达表现得很好。如果该公司坚持不懈地继续开发更多、更高效的芯片——到2023年,它在GPU领域仍然具有明显的优势赌博和专业人士——2020 年,该公司收购了一家不为公众所知的公司:Mellanox。 Nvidia 吸收了一位网络专家,并将其产品“嫁接到”其专业 GPU 上。既卖超级网络芯片,也卖开关(分发信息)及其软件,Nvidia 优化了 GPU 和网络设备,以便在它们协同工作时发挥最佳性能。
因此,Nvidia 的 Quantum-2 InfiniBand 解决方案能够在每台服务器上传输 400 Gbit 的数据 - 与您盒子中的 1 Gbit 路由器不同!最重要的是,网络设备和软件能够在分布在数千台服务器上的数千个 GPU 上智能地分配计算。不仅 ChatGPT 的服务现在还必须面对 Bing 的服务,现在必须面对数百万个请求所需的“智能”。因此,下次使用 ChatGPT 时,您可以想象在不到一秒的时间内释放计算和交付结果所需的大量计算能力和具有竞争力的传输速度。这一切都是为了写一首NTM风格的歌颂白蚁!
来源 : 彭博社