现在哪一项更难获得: 1,665 个 Nvidia 的 “Blackwell” B200 GPU 计算引擎,还是在美国东北部地区签订四年期合同的 10 兆瓦电力?
毫无疑问,更难的是后者,而不是前者,而且两者成本大约都是 6600 万美元。
有趣的是,在 GB200 NVL72 机架规模系统配置下,这些 GPU 实际上可能需要 13.4 兆瓦的电力才能运行,这意味着在四年内它们将消耗约 88.5 兆瓦的电力。而且如果你不需要为 GPU 提供机架规模一致性内存域,因为你使用 GPU 设备进行 AI 训练而非推理 ( which operates at a scale of tens of thousands of GPUs ) ,你消耗的电力大致相同,但你可以使用双倍的空间和一半的功率密度。
关于现代 AI 数据中心还有一个有趣的点:如果你无法证明自己获得了规定的电力,在专为处理系统密度而设计的数据中心中,Nvidia 不会向你出售 GPU,直到你能证明你拥有足够的电力。而且,就在上周我们在纽约市 NASDAQ 交易所参加专注于金融服务行业中 AI 的会议时,街头的反馈是,电力公司如今正试图充分利用他们的千兆瓦电力发电量,并在分配电力之前越来越关注你如何分配电力和进行 AI 数据中心的冷却。
越来越多的是,如果你不能证明你在合理使用电力,你就得不到或者得不到所需的电量。
再加上一个事实,即在运行连锁思维模型的 AI 系统中,计算密度是必不可少的,因为这些模型要求 GPU 之间具备超低延迟的一致性内存链接用于 AI 推理。虽然直接液冷在未来并非不可避免,但它现在绝对是必需的。而且很多数据中心并不习惯这种冷却方式,那些早在五六十年前 IBM System/360 和 System/370 大型机时代采用过液冷技术的数据中心,如今已经很久没有见到液冷设备了。
这就是为什么像 Supermicro 这样的公司必须在 GPU 加速系统的直接液冷技术上不断突破极限。
Supermicro 市场和网络安全高级副总裁 Michael McNerney 对 The Next Platform 表示:“我们所接触的所有客户都在思考每兆瓦电力可以支持和冷却多少个 GPU。他们告诉我们他们有多少兆瓦电力,并且希望获得尽可能多的 GPU。讨论的焦点在于 GPU 密度和每兆瓦可容纳的 GPU 数量,而不是节省电费,而是能有更多的 GPU 用于处理 AI 工作负载。”
Supermicro 在 2023 年秋季开发了第一代直接液冷系统,该系统在 CPU 和 GPU 上均配备了冷板,并基于 Nvidia 的 “Hopper” H100 GPU 构建了八 GPU 服务器,由此首次显现出一些在 HPC 系统中使用多年的冷却技术需要在 AI 系统中普及。Supermicro 设计并制造了整个 DLC 系统,包括冷板、机架中的冷却液分配单元 ( CDUs ) 以及为机架设备提供冷水的冷水机。
值得注意的是,xAI 在孟菲斯数据中心中“Colossus”系统的一半 —— 共计 50,000 个 H100 GPU —— 采用 Supermicro 的 DLC-1 技术建成。系统的另一半 ( with another 50,000 H100s ) 则由 Dell 构建,仅采用风冷技术。
Colossus 机器中的这些节点配备了一对 CPU 和八个 H100 GPU。服务器节点还配备了八个 ConnectX-7 网络接口卡 ( one for each GPU ) ,以及一对用于系统管理的低速以太网接口卡、用于连接 GPU 集群与 CPU 及节点内存储的 PCI-Express 交换机和其他若干组件。DLC-1 系统使用温度为 30 摄氏度 ( Celsius ) 的水,能够从系统中移除超过 70% 的热量,这在效率和电力节省方面有了显著改善。DLC-1 配置中的 CDU 额定功率为 100 千瓦。
但鉴于全球电力供应短缺及其昂贵的成本,Supermicro 推出了 DLC-2 液冷系统,该系统本周宣布,并率先在 Blackwell B200 GPU 节点中亮相。
下面展示的是一款采用 DLC-2 冷却的全新 4U 节点的外观:
从技术上讲,根据 Supermicro 的命名规则,上述机器型号为 SYS-422GS-NBRT-LCC。CDU 效率更高,能提供 250 千瓦的冷却流量,且重要的是它可以使用温度仅为 45 摄氏度的液体运行,这意味着它可以使用外部冷却塔而非冷水机组进行冷却,从而降低整体电力需求。
在 B200 HGX SuperServer 中采用 DLC-2 配置时,配备有一对 Intel Xeon 6 CPU 和八个 Blackwell B200 GPU 的处理器拥有冷板,而主内存 DIMM、节点内的 PCI-Express 交换机、电源以及电压调节器也均装有冷板,以便直接散发热量。
而随着 Supermicro 今年晚些时候推出的 HGX B300 系统,ConnectX-7 及之后的网络接口卡也将采用液体冷却,因此系统产生的热量中约 98% 将通过液体散热,而非空气。实际上,SuperServer B300 节点仅配备两个小型风扇,噪音极低。
这一切的结果是,采用 DLC-2 冷却的 GPU 系统在散热方面使用的电力比仅两年前采用完全风冷的 HGX H100 系统低 40%。采用 DLC-2 配置的机架电源使用效率 ( PUE ) 也将降得非常低。普通的传统企业数据中心机架的 PUE 为 1.6 到 2.0,这意味着数据中心机架消耗的电力是运算单元工作所需电力的 1.6 倍到 2 倍,多余的电力用于冷却机架。采用 DLC-1 后,Supermicro 机架的 PUE 降至约 1.2,而 DLC-2 的目标则是低至 1.02 PUE。
另外,DLC-2 机架的噪音水平降低到了约 50 dB,相比之下,DLC-1 机架约为 75 dB。普通对话约 60 dB,繁忙交通 ( outside the car ) 约 85 dB。摇滚音乐会噪音大约 120 dB,而喷气式飞机起飞时则达到 140 dB。
冷却 AI 系统更高效的唯一方法就是将其浸入婴儿油或其他不会损坏计算机组件的冷却液之中。话说回来,这种方法非常极端。
好文章,需要你的鼓励
Waymo 因发现无人驾驶出租车在低速行驶时撞击大门、链条等固定障碍物,召回了其中 1,200 辆车辆,并通过软件更新降低风险,满足监管要求。
本文探讨了 AI 数据中心如何利用直冷技术应对 GPU 高功率散热和电力分配挑战,通过 Supermicro 的 DLC-1 与 DLC-2 系统实现能耗降、噪音减。
Acorns收购了家庭投资赠礼平台EarlyBird。收购后平台将关闭,创始人加入Acorns团队,助力打造儿童理财App Acorns Early,并整合数字时间胶囊功能,助全家传承财富。
Cognichip 正在构建基于物理知识的基础 AI 模型,以加速新芯片的研发,降低成本,并帮助半导体企业实现转型。