推进 AI 系统散热到极限：不采用浸入式冷却

本文探讨了 AI 数据中心如何利用直冷技术应对 GPU 高功率散热和电力分配挑战，通过 Supermicro 的 DLC-1 与 DLC-2 系统实现能耗降、噪音减。

现在哪一项更难获得： 1,665 个 Nvidia 的 “Blackwell” B200 GPU 计算引擎，还是在美国东北部地区签订四年期合同的 10 兆瓦电力？

毫无疑问，更难的是后者，而不是前者，而且两者成本大约都是 6600 万美元。

有趣的是，在 GB200 NVL72 机架规模系统配置下，这些 GPU 实际上可能需要 13.4 兆瓦的电力才能运行，这意味着在四年内它们将消耗约 88.5 兆瓦的电力。而且如果你不需要为 GPU 提供机架规模一致性内存域，因为你使用 GPU 设备进行 AI 训练而非推理 ( which operates at a scale of tens of thousands of GPUs ) ，你消耗的电力大致相同，但你可以使用双倍的空间和一半的功率密度。

关于现代 AI 数据中心还有一个有趣的点：如果你无法证明自己获得了规定的电力，在专为处理系统密度而设计的数据中心中，Nvidia 不会向你出售 GPU，直到你能证明你拥有足够的电力。而且，就在上周我们在纽约市 NASDAQ 交易所参加专注于金融服务行业中 AI 的会议时，街头的反馈是，电力公司如今正试图充分利用他们的千兆瓦电力发电量，并在分配电力之前越来越关注你如何分配电力和进行 AI 数据中心的冷却。

越来越多的是，如果你不能证明你在合理使用电力，你就得不到或者得不到所需的电量。

再加上一个事实，即在运行连锁思维模型的 AI 系统中，计算密度是必不可少的，因为这些模型要求 GPU 之间具备超低延迟的一致性内存链接用于 AI 推理。虽然直接液冷在未来并非不可避免，但它现在绝对是必需的。而且很多数据中心并不习惯这种冷却方式，那些早在五六十年前 IBM System/360 和 System/370 大型机时代采用过液冷技术的数据中心，如今已经很久没有见到液冷设备了。

这就是为什么像 Supermicro 这样的公司必须在 GPU 加速系统的直接液冷技术上不断突破极限。

Supermicro 市场和网络安全高级副总裁 Michael McNerney 对 The Next Platform 表示：“我们所接触的所有客户都在思考每兆瓦电力可以支持和冷却多少个 GPU。他们告诉我们他们有多少兆瓦电力，并且希望获得尽可能多的 GPU。讨论的焦点在于 GPU 密度和每兆瓦可容纳的 GPU 数量，而不是节省电费，而是能有更多的 GPU 用于处理 AI 工作负载。”

Supermicro 在 2023 年秋季开发了第一代直接液冷系统，该系统在 CPU 和 GPU 上均配备了冷板，并基于 Nvidia 的 “Hopper” H100 GPU 构建了八 GPU 服务器，由此首次显现出一些在 HPC 系统中使用多年的冷却技术需要在 AI 系统中普及。Supermicro 设计并制造了整个 DLC 系统，包括冷板、机架中的冷却液分配单元 ( CDUs ) 以及为机架设备提供冷水的冷水机。

值得注意的是，xAI 在孟菲斯数据中心中“Colossus”系统的一半 —— 共计 50,000 个 H100 GPU —— 采用 Supermicro 的 DLC-1 技术建成。系统的另一半 ( with another 50,000 H100s ) 则由 Dell 构建，仅采用风冷技术。

Colossus 机器中的这些节点配备了一对 CPU 和八个 H100 GPU。服务器节点还配备了八个 ConnectX-7 网络接口卡 ( one for each GPU ) ，以及一对用于系统管理的低速以太网接口卡、用于连接 GPU 集群与 CPU 及节点内存储的 PCI-Express 交换机和其他若干组件。DLC-1 系统使用温度为 30 摄氏度 ( Celsius ) 的水，能够从系统中移除超过 70% 的热量，这在效率和电力节省方面有了显著改善。DLC-1 配置中的 CDU 额定功率为 100 千瓦。

但鉴于全球电力供应短缺及其昂贵的成本，Supermicro 推出了 DLC-2 液冷系统，该系统本周宣布，并率先在 Blackwell B200 GPU 节点中亮相。

下面展示的是一款采用 DLC-2 冷却的全新 4U 节点的外观：

从技术上讲，根据 Supermicro 的命名规则，上述机器型号为 SYS-422GS-NBRT-LCC。CDU 效率更高，能提供 250 千瓦的冷却流量，且重要的是它可以使用温度仅为 45 摄氏度的液体运行，这意味着它可以使用外部冷却塔而非冷水机组进行冷却，从而降低整体电力需求。

在 B200 HGX SuperServer 中采用 DLC-2 配置时，配备有一对 Intel Xeon 6 CPU 和八个 Blackwell B200 GPU 的处理器拥有冷板，而主内存 DIMM、节点内的 PCI-Express 交换机、电源以及电压调节器也均装有冷板，以便直接散发热量。

而随着 Supermicro 今年晚些时候推出的 HGX B300 系统，ConnectX-7 及之后的网络接口卡也将采用液体冷却，因此系统产生的热量中约 98% 将通过液体散热，而非空气。实际上，SuperServer B300 节点仅配备两个小型风扇，噪音极低。

这一切的结果是，采用 DLC-2 冷却的 GPU 系统在散热方面使用的电力比仅两年前采用完全风冷的 HGX H100 系统低 40%。采用 DLC-2 配置的机架电源使用效率 ( PUE ) 也将降得非常低。普通的传统企业数据中心机架的 PUE 为 1.6 到 2.0，这意味着数据中心机架消耗的电力是运算单元工作所需电力的 1.6 倍到 2 倍，多余的电力用于冷却机架。采用 DLC-1 后，Supermicro 机架的 PUE 降至约 1.2，而 DLC-2 的目标则是低至 1.02 PUE。

另外，DLC-2 机架的噪音水平降低到了约 50 dB，相比之下，DLC-1 机架约为 75 dB。普通对话约 60 dB，繁忙交通 ( outside the car ) 约 85 dB。摇滚音乐会噪音大约 120 dB，而喷气式飞机起飞时则达到 140 dB。

冷却 AI 系统更高效的唯一方法就是将其浸入婴儿油或其他不会损坏计算机组件的冷却液之中。话说回来，这种方法非常极端。

来源：The Next Platform

0赞

好文章，需要你的鼓励

推进 AI 系统散热到极限：不采用浸入式冷却

来源：The Next Platform

2025

05/16

14:35

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Cognichip走出隐身状态，目标利用生成式 AI 开发新芯片

Netflix 全面升级电视应用：全新界面与响应式推荐

Google推出 Gemini iPad 应用

Spotify 的 AI DJ 现已支持点歌

Patronus AI 首发 Percival，助力企业大规模监控失效的 AI 代理系统

Intel Xeon 6 CPU 在人工智能、高性能计算领域崭露头角

认识你的新同事 —— ML管理员，能驯服大语言模型让它们大放异彩

OpenAI 表示 GPT-4.1 模型现已在 ChatGPT 中上线

Google DeepMind 开发了专注于编程和数学的 AlphaEvolve AI 代理

DeepMind 声称其最新 AI 工具在数学和科学问题上表现出色

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会