现在哪一项更难获得: 1,665 个 Nvidia 的 “Blackwell” B200 GPU 计算引擎,还是在美国东北部地区签订四年期合同的 10 兆瓦电力?
毫无疑问,更难的是后者,而不是前者,而且两者成本大约都是 6600 万美元。
有趣的是,在 GB200 NVL72 机架规模系统配置下,这些 GPU 实际上可能需要 13.4 兆瓦的电力才能运行,这意味着在四年内它们将消耗约 88.5 兆瓦的电力。而且如果你不需要为 GPU 提供机架规模一致性内存域,因为你使用 GPU 设备进行 AI 训练而非推理 ( which operates at a scale of tens of thousands of GPUs ) ,你消耗的电力大致相同,但你可以使用双倍的空间和一半的功率密度。
关于现代 AI 数据中心还有一个有趣的点:如果你无法证明自己获得了规定的电力,在专为处理系统密度而设计的数据中心中,Nvidia 不会向你出售 GPU,直到你能证明你拥有足够的电力。而且,就在上周我们在纽约市 NASDAQ 交易所参加专注于金融服务行业中 AI 的会议时,街头的反馈是,电力公司如今正试图充分利用他们的千兆瓦电力发电量,并在分配电力之前越来越关注你如何分配电力和进行 AI 数据中心的冷却。
越来越多的是,如果你不能证明你在合理使用电力,你就得不到或者得不到所需的电量。
再加上一个事实,即在运行连锁思维模型的 AI 系统中,计算密度是必不可少的,因为这些模型要求 GPU 之间具备超低延迟的一致性内存链接用于 AI 推理。虽然直接液冷在未来并非不可避免,但它现在绝对是必需的。而且很多数据中心并不习惯这种冷却方式,那些早在五六十年前 IBM System/360 和 System/370 大型机时代采用过液冷技术的数据中心,如今已经很久没有见到液冷设备了。
这就是为什么像 Supermicro 这样的公司必须在 GPU 加速系统的直接液冷技术上不断突破极限。
Supermicro 市场和网络安全高级副总裁 Michael McNerney 对 The Next Platform 表示:“我们所接触的所有客户都在思考每兆瓦电力可以支持和冷却多少个 GPU。他们告诉我们他们有多少兆瓦电力,并且希望获得尽可能多的 GPU。讨论的焦点在于 GPU 密度和每兆瓦可容纳的 GPU 数量,而不是节省电费,而是能有更多的 GPU 用于处理 AI 工作负载。”
Supermicro 在 2023 年秋季开发了第一代直接液冷系统,该系统在 CPU 和 GPU 上均配备了冷板,并基于 Nvidia 的 “Hopper” H100 GPU 构建了八 GPU 服务器,由此首次显现出一些在 HPC 系统中使用多年的冷却技术需要在 AI 系统中普及。Supermicro 设计并制造了整个 DLC 系统,包括冷板、机架中的冷却液分配单元 ( CDUs ) 以及为机架设备提供冷水的冷水机。
值得注意的是,xAI 在孟菲斯数据中心中“Colossus”系统的一半 —— 共计 50,000 个 H100 GPU —— 采用 Supermicro 的 DLC-1 技术建成。系统的另一半 ( with another 50,000 H100s ) 则由 Dell 构建,仅采用风冷技术。
Colossus 机器中的这些节点配备了一对 CPU 和八个 H100 GPU。服务器节点还配备了八个 ConnectX-7 网络接口卡 ( one for each GPU ) ,以及一对用于系统管理的低速以太网接口卡、用于连接 GPU 集群与 CPU 及节点内存储的 PCI-Express 交换机和其他若干组件。DLC-1 系统使用温度为 30 摄氏度 ( Celsius ) 的水,能够从系统中移除超过 70% 的热量,这在效率和电力节省方面有了显著改善。DLC-1 配置中的 CDU 额定功率为 100 千瓦。
但鉴于全球电力供应短缺及其昂贵的成本,Supermicro 推出了 DLC-2 液冷系统,该系统本周宣布,并率先在 Blackwell B200 GPU 节点中亮相。
下面展示的是一款采用 DLC-2 冷却的全新 4U 节点的外观:
从技术上讲,根据 Supermicro 的命名规则,上述机器型号为 SYS-422GS-NBRT-LCC。CDU 效率更高,能提供 250 千瓦的冷却流量,且重要的是它可以使用温度仅为 45 摄氏度的液体运行,这意味着它可以使用外部冷却塔而非冷水机组进行冷却,从而降低整体电力需求。
在 B200 HGX SuperServer 中采用 DLC-2 配置时,配备有一对 Intel Xeon 6 CPU 和八个 Blackwell B200 GPU 的处理器拥有冷板,而主内存 DIMM、节点内的 PCI-Express 交换机、电源以及电压调节器也均装有冷板,以便直接散发热量。
而随着 Supermicro 今年晚些时候推出的 HGX B300 系统,ConnectX-7 及之后的网络接口卡也将采用液体冷却,因此系统产生的热量中约 98% 将通过液体散热,而非空气。实际上,SuperServer B300 节点仅配备两个小型风扇,噪音极低。
这一切的结果是,采用 DLC-2 冷却的 GPU 系统在散热方面使用的电力比仅两年前采用完全风冷的 HGX H100 系统低 40%。采用 DLC-2 配置的机架电源使用效率 ( PUE ) 也将降得非常低。普通的传统企业数据中心机架的 PUE 为 1.6 到 2.0,这意味着数据中心机架消耗的电力是运算单元工作所需电力的 1.6 倍到 2 倍,多余的电力用于冷却机架。采用 DLC-1 后,Supermicro 机架的 PUE 降至约 1.2,而 DLC-2 的目标则是低至 1.02 PUE。
另外,DLC-2 机架的噪音水平降低到了约 50 dB,相比之下,DLC-1 机架约为 75 dB。普通对话约 60 dB,繁忙交通 ( outside the car ) 约 85 dB。摇滚音乐会噪音大约 120 dB,而喷气式飞机起飞时则达到 140 dB。
冷却 AI 系统更高效的唯一方法就是将其浸入婴儿油或其他不会损坏计算机组件的冷却液之中。话说回来,这种方法非常极端。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
腾讯等机构提出ViQ框架,通过两阶段渐进量化训练,让离散视觉编码在多模态理解和图像重建上同时追平连续特征编码器,训练速度最高提升70%。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港科技大学与华为联合提出LISA训练方法,通过让副网络对齐"似然分数",将ControlNet等图像生成模型的训练收敛速度提升逾2.78倍,同时改善图像质量与条件控制精度。