AI与高性能计算(HPC)正在重新定义数据中心的"常态"。专为AI训练和推理设计的加速服务器,其功耗远超传统CPU系统,且往往在较长时间内接近峰值负载运行。
这种持续高负载使散热成为运营商扩充容量速度的关键制约因素。一旦温度超过芯片的承受极限,系统将触发降频机制,性能下滑,可靠性风险随之上升。此外,AI工作负载还会在GPU芯片上形成高度动态的热分布,局部热点的热流密度可达平均值的数倍,且在毫秒级时间内迅速转移。
与此同时,外部压力也在持续增加。电力供应是否充足,已成为决定新数据中心能否落地、能否快速投产的重要因素。国际能源署(IEA)预测,全球数据中心电力消耗到2030年可能达到约945太瓦时,较2024年水平翻番以上,AI是这一增长的主要驱动力。
在部分面临干旱和资源竞争的地区,水资源的可用性也日益成为讨论焦点。
随着需求持续增长,一个核心问题浮出水面:当前的冷却方案,能否与AI需求同步扩展?
空气冷却的局限
风冷在许多场景下仍然有效,但随着机架功率的提升,其局限性愈发凸显。
要用空气带走更多热量,就需要驱动更大体积的气流,这意味着风扇能耗大幅攀升,运维容错空间随之收窄。AI工作负载长期维持高利用率,气流或功耗稍有波动便可能触发降频。因此,越来越多的运营商在高密度部署场景中转向液冷方案。
液冷的权衡取舍
液冷系统将散热点直接移至芯片附近,降低了对机房气流和环境温度的依赖。目前许多部署采用基于水的直接到芯片(Direct-to-Chip)冷却系统,虽然性能表现良好,但也带来了额外的运营复杂性。
水与IT设备共处一室,意味着泄漏和宕机风险后果更为严重。运营商还需长期管理水质、防腐及系统维护等事项。据部分估算,一座100兆瓦的设施每天可消耗约110万加仑水,具体数字因冷却设计和当地条件而异。
在欧洲,《能源效率指令》的报告要求规定,大型运营商须披露能耗和用水数据,这使冷却方案的选择进一步与可持续性及社区影响挂钩。
无水冷却方案的兴起
上述压力正推动业界对"无水冷却"方案的关注。这里的"无水",是指将水从数据机房中移除,并减少对蒸发冷却的依赖——后者是许多设计方案中水耗的主要来源。典型做法包括采用密闭循环系统、在条件允许时使用干式散热,以及在设施水系统与IT设备之间实现物理隔离。
两相直接到芯片冷却(Two-Phase Direct-to-Chip Cooling)是其中一种代表性技术路线。
冷板直接贴合处理器表面,内含介电导热液体。当处理器升温时,液体在受控温度下沸腾,以蒸汽形式将热量带走;蒸汽随后冷凝并回流至冷板,形成持续循环。
由于相变过程承担了大部分散热工作,与主要依靠大流量液体循环的单相系统相比,两相系统所需的流量可能更低。
支持者认为,这一方案可以降低泵送需求,在工作负载变化时维持更稳定的芯片温度,并规避水基系统在水处理和防腐管理方面的部分挑战。
随着机架功率持续攀升,分配架构的重要性也日益凸显。面向多个机架的共享分配系统,可在减少基础设施重复建设的同时,保持机架级别的监控与管控能力。
这对改造项目尤为关键。大多数现有设施最初围绕风冷架构设计,对重大基础设施改造的适应空间有限。在密度最高的区域率先引入液冷,既可延长现有设施的使用寿命,也为热能回收利用创造潜在机会。
行业的采用步伐仍在持续加快。在Uptime Institute 2025年冷却系统调查中,22%的受访机构表示已在使用直接液冷,机架密度提升是主要驱动因素。
随着液冷逐渐普及,业界的关注点可能将转向运营成熟度,包括为AI、HPC及托管环境设计的标准接口、遥测系统和服务模式。
高密度基础设施的规划之道
AI正以超出大多数设施改建速度的节奏,持续推高芯片与机架的功耗需求。冷却决策,正在与电力供应、用水量和运营效率一道,成为基础设施规划的核心议题。
对于新建设施,这意味着需要评估能够支撑下一代加速芯片、同时不造成资源过度消耗的冷却方案。对于现有设施,则可能意味着在密度最高的环境中逐步引入液冷,同时调整运维流程和监控系统,以支撑相关部署。
运营商如何应对散热挑战,将在很大程度上决定新AI基础设施的部署速度,以及这些基础设施在监管机构、客户和当地社区眼中的形象与认可度。
Q&A
Q1:两相直接到芯片冷却技术是如何工作的?
A:两相直接到芯片冷却技术通过将冷板直接贴合处理器表面来实现散热。冷板内含介电导热液体,当处理器升温时,液体在受控温度下沸腾,以蒸汽形式将热量带走;蒸汽随后冷凝并回流至冷板,形成持续循环。由于相变过程承担了大部分散热工作,该系统所需液体流量比传统单相系统更低,同时能在工作负载变化时维持更稳定的芯片温度。
Q2:液冷数据中心每天大约会消耗多少水?
A:据部分估算,一座100兆瓦的数据中心设施,采用液冷方案后每天可消耗约110万加仑水,具体数字因冷却系统设计方式和当地实际条件的不同而存在差异。正因如此,在面临干旱和资源竞争压力的地区,水资源的消耗问题已成为数据中心冷却方案选择中不可忽视的重要因素。
Q3:目前有多少数据中心机构在使用直接液冷技术?
A:根据Uptime Institute 2025年冷却系统调查报告,目前已有22%的受访机构表示正在使用直接液冷技术,机架密度不断提升是推动采用该技术的主要原因。随着液冷逐渐普及,业界的关注重点预计将从部署本身转向运营成熟度,包括标准接口、遥测系统以及专为AI、HPC和托管环境设计的服务模式。
好文章,需要你的鼓励
2025年1月,OpenAI、软银、甲骨文和MGX联合宣布"星际之门"计划,承诺投资5000亿美元,部署高达10GW算力基础设施。如今,该项目已从白宫发布会上的宏大承诺,演变为一场前所未有规模的基础设施建设实验。项目已扩展至德克萨斯、威斯康星、俄亥俄等多地,并延伸至阿布扎比和挪威。然而,融资争议、合作伙伴摩擦、能源压力及政策监管收紧,正考验着这一"AI工业园"模式能否真正落地。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
加密货币交易所OKX正式推出AI智能体交易市场OKX AI,允许AI代理相互雇佣、自主结算,并建立基于区块链的可携带信誉档案。该平台经过50家早期服务商封测后向开发者开放,依托稳定币和链上支付基础设施,支持全天候微支付。OKX创始人徐明星表示,传统金融基础设施为人类而建,智能体经济需要为自主软件专门设计的基础设施。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。