这是"关键瓶颈"系列的最新一篇,该系列持续关注AI基础设施扩张所面临的核心挑战。
弗吉尼亚州一个拟建数据中心园区在初期部署阶段申请的用水量高达每日200万加仑(MGD),未来需求峰值甚至可能达到每日800万加仑。相关公用事业服务协议明确指出,该项目的预期需求已超出现有供水与污水处理规划的承受范围。文件深处还藏着另一项要求:"为保护关键运营所需的敏感设备,须持续进行蒸发冷却。"
过去两年,AI基础设施的竞争焦点始终集中在电力系统上。公用事业公司不得不重写负荷预测,电网运营商在海量并网申请的压力下疲于应对,超大规模云服务商争相锁定变电站、天然气容量和输电通道,以支撑日益耗电的AI集群。如今,同样的压力正向另一个本为缓慢稳定增长而设计的系统蔓延——市政供水基础设施。
在多个地区,水资源正逐渐成为类似电网容量的选址限制因素,直接决定大型AI园区能否落地或扩建。随着开发商向搭载密集GPU部署的超大园区迈进,公用事业公司和市政当局开始直面冷却架构、再生水获取、污水处理容量以及长期干旱规划等一系列问题。乔治亚州牛顿县的一位水务局代表在面对某数据中心项目提出的每日600万加仑用水申请时,直截了当地说:"我们根本没有这么多水。"这句话折射出一个更宏观的现实:拿到电力供应,并不等于同时拥有足够的冷却用水、污水处理能力或市政支持。
在德克萨斯州,2027年州级供水规划草案预测,即便人口增长超过50%,全州现有供水量到2080年仍可能下降约10%。州政府估计,未来50年可能需要约1740亿美元的供水基础设施投入,以满足日益增长的AI需求并维持稳定供水。该规划以历史最严重干旱为情景基准进行编制,而这恰恰是大型AI集群冷却用水压力最为集中的时段,但规划并未将AI相关数据中心的需求单独列为一个规划类别。
AI热潮背后的物理本质
供水系统从未为密集运行、热负荷极高的AI集群而设计。业界对算力侃侃而谈,但背后的物理规律始终围绕着热量排放展开。
加州大学河滨分校的研究人员在一篇研究AI用水足迹的论文中写道:"服务器消耗的能量几乎全部转化为热量,必须从数据中心机房中排出,才能避免过热。"
多年来,大多数数据中心主要依赖风冷散热。AI的出现彻底改变了这一格局。现代GPU系统每个机架所产生的热密度远超传统企业级硬件。运营商越来越多地部署芯片直接液冷(D2C)、背门热交换器、冷冻水回路和大型冷却分配系统,以实现高效散热。水泵、冷却塔、处理系统、冷水机组、再生水系统和市政供水基础设施,如今都直接嵌入散热链路之中。
能源与用水的权衡取舍
冷却方案的选择迫使运营商在电力需求与耗水量之间寻求平衡。蒸发式系统可降低电力需求,但会增加直接用水量。干式或绝热冷却可减少用水依赖,但在极端高温天气下可能推高能耗。
德克萨斯大学奥斯汀分校专注于热力系统、液冷及AI基础设施用水研究的副教授Vaibhav Bahadur告诉《数据中心知识》:"从用水角度看,冷却塔是最差的方案;干式或绝热冷却是最优的。但这还必须结合能耗一并考量。"
加州大学河滨分校副教授、前述AI用水足迹论文共同作者Shaolei Ren在近期公开评论中指出,蒸发辅助冷却在极端夏季条件下可将峰值冷却功耗降低20%至60%,实际上是将部分基础设施压力从电网转移到了市政供水系统。他还警告说,数据中心存在"两种截然不同的用水依赖":一是直接冷却需求,二是与发电相关的大量场外用水负担。
AI高密度部署改变冷却方程
劳伦斯伯克利国家实验室研究人员于2025年发布的一篇综述论文发现,根据冷却架构、电网用水强度、服务器利用率、气候带和能效水平的不同,工作负载层面的用水量差异可超过10000倍。
UC河滨的论文指出,D2C液冷系统本身"不会蒸发或消耗水"。目前业界普遍强调封闭式液冷系统——冷却液在密封管路和冷板中循环流动,而非在服务器环境中蒸发。但封闭式系统并不能消除更宏观的冷却负担,设施仍须将热量排放至外部环境。
EkkoSense首席营销官Justin Bluming在接受《数据中心知识》采访时表示:"将热量从数据大厅导出,不过是把它集中并转移到别处。液冷改变的是热量的传输方式,但设施最终仍须将其排放到外部环境。"
他补充说,随着机架密度持续攀升、GPU集群愈加趋近满负荷持续运行,监控的精细程度愈发重要。"AI机架的问题往往在接近最高负载时运行,其影响范围可能更大。"
间接与直接用水
UC河滨的论文指出,芯片直接液冷系统本身"不会蒸发或消耗水"。
然而,大型AI集群仍需设施级热量排放,根据设施设计和电力来源的不同,这可能通过冷却塔、蒸发辅助系统或发电过程将用水需求转移至其他环节。
随着开发商转向自建天然气发电,以绕过电网并网瓶颈,这一区分将变得更加重要。场地自发电系统虽然可以减少对紧张输电基础设施的依赖,但根据发电技术和冷却设计的不同,也可能增加区域整体用水量。
Bahadur表示:"随着更优技术的采用和优化,直接用水量将有所下降,但间接用水可能成为一个重大问题。"
性能与热裕量
尽管用水问题日益受到关注,运营商仍持续推进液冷部署,因为密集的AI工作负载已越来越难以靠传统风冷系统应对。
一项近期对液冷与风冷8×英伟达H100系统的基准测试研究发现,液冷配置在峰值负载下将GPU温度维持在41至50摄氏度,而风冷系统则高达54至72摄氏度。更低的温度使液冷系统在持续压力测试中的吞吐量提升约17%。在实际AI工作负载下,液冷系统在高利用率时节点级功耗也低约1至1.5千瓦,同时保持同等甚至更优的训练性能。这些优势正推动整个行业转向液冷,尽管其工程复杂性也随之增加。
Bluming指出,能够在更高水温下运行的新一代D2C系统,也正在重塑AI基础设施的地理分布格局。"过去一年,我们看到了在密西西比州、阿拉巴马州和路易斯安那州的重大数据中心公告。在AI热潮兴起之前,这些地方并不是数据中心建设的热门地区,而那里的气候显然是非常炎热潮湿的。"他还补充说,部分新型冷却技术能够在比传统冷冻水系统高得多的水温下运行,使大型AI部署在过去被认为冷却条件恶劣的地区也具备了经济可行性。
峰值需求的隐忧
来自UC河滨、加州理工学院和罗切斯特理工学院的研究人员认为,整个行业正撞上一个鲜为人知的限制——供水峰值容量。他们在题为《小瓶子,大管道》的论文中警告,许多公共供水系统缺乏足够的冗余容量,无法在极端夏季条件下吸收大规模AI冷却负荷。
研究人员估计,若当前用水强度持续不变,到2030年美国数据中心可能需要每日6.97亿至14.5亿加仑的新增供水容量,大致相当于纽约市的日均供水量。这一压力将集中落在承接地所在社区,而这些地区的公共供水系统本就不少已在老化或接近容量上限。
这种紧张态势正在地方审批环节浮出水面,市政系统面临的峰值需求场景,远超其设计初衷。
Ren告诉《数据中心知识》,市政系统在项目审查中通常会收到最大需求申请,但许多规模较小的系统在极端夏季条件下,当下可能根本没有这种峰值容量。当"本地系统在不影响其他用户的前提下无法可靠支撑项目峰值需求"时,水资源就成为了选址的制约因素。
真正的难题是需求的波动性。与大多数市政用户不同,数据中心的峰值系数往往异常高——即日最大用水量与日均用水量之比。论文估计,根据冷却架构和气候不同,许多数据中心的峰值系数在3至10之间,部分设施甚至超过30。论文中分析了威斯康星州一家面向AI的超大规模设施,该设施申请的供水容量约为每日70万加仑,而实际日均用水量仅约2.3万加仑,意味着峰值系数超过30。
市政系统的规划基准并非年均用水量,而是一年中最炎热的天气。
研究人员明确揭示了这一权衡:"设施级冷却在电力使用与用水之间存在根本性的取舍。"节水冷却往往加重电力负担;节电冷却往往加重用水负担。
再生水可减轻对饮用水供应的压力,但同样面临自身的水力限制。
污水处理进入AI基础设施堆栈
公众对数据中心的讨论通常聚焦于淡水消耗,但市政系统同样承受着排污压力。大型冷却系统产生的浓缩矿物质和化学处理剂废水,需由当地处理厂进行处理。随着AI园区规模扩大,无论城市是否有所规划,污水处理系统正越来越多地成为计算基础设施堆栈的组成部分。
在水资源紧张的地区,运营商正积极寻求再生水协议,以减少对饮用水系统的依赖。
在北弗吉尼亚州,供水基础设施已在数据中心冷却需求的推动下持续扩张。劳登水务正将其Broad Run水资源回用设施的处理能力从每日1500万加仑提升至3000万加仑,同时扩建一条部分为"数据中心走廊"工业冷却负荷配套建设的再生水分配管网。该系统包含约20英里的再生水管道,2025年已向用户输送超过7.45亿加仑再生水。
在乔治亚州道格拉斯县,谷歌利用经过处理的市政污水冷却设施,再将剩余水流排回查特胡奇河。即便是再生水系统也存在限制——劳登水务指出,随着区域需求攀升,水力限制和容量分配可能制约新的再生水接入申请。
这一转变正悄然将污水处理基础设施改造为AI建设浪潮中的战略性资源。历史上各自为政的电力规划、水务区、污水运营和经济发展部门,正被AI基础设施的需求强行整合到一起。
供水系统的扩张正在复刻电网扩张的轨迹:代价高昂、推进迟缓、政治博弈复杂、受制于地理条件。水库、新水源开发、处理能力提升和污水系统升级,往往需要数年乃至数十年才能完成。这些时间周期与超大规模云服务商争分夺秒部署AI算力的节奏,正越来越多地产生冲突。
《小瓶子,大管道》的研究人员写道:"并不存在什么供数据中心随意取用的'国家水库'。"
为另一个时代建造的基础设施
数据中心基础设施的讨论长期以电力为核心,而AI改变了问题的量级。大型GPU集群将巨大的热负荷集中在相对有限的空间内,迫使运营商通过设施冷却系统,以及最初按照较慢工业增速规划的市政供水和污水管网,排出远超以往的热量。
市政公用事业公司如今须统筹规划冷却峰值需求、污水处理容量、抗旱韧性,以及节水型与节电型冷却架构之间的权衡。与此同时,许多公共规划框架仍难以将AI基础设施作为一个独立的基础设施类别加以建模。
弗吉尼亚州那份公用事业协议将AI系统的不间断运行与"持续蒸发冷却以保护关键运营所需敏感设备"直接挂钩,同一份文件也承认,该项目的预期需求已超出公用事业公司现有的长期规划假设。
《小瓶子,大管道》所揭示的压力表明,水资源是一项硬性基础设施约束,将决定新的AI集群能否获批落地。
Bluming表示,随着机架密度持续攀升,行业的长期冷却走向正愈发清晰。"如果500千瓦机架成为现实,那么液冷就是物理规律所决定的必然。"
这一切都指向AI基础设施的一个新现实:在许多市场中,下一个重大瓶颈或许不再是如何发出足够的电力,而是如何获取足够的水——以及足够的污水处理容量——来带走热量。
Q&A
Q1:AI数据中心为什么会消耗大量水资源?
A:AI数据中心运行时,服务器消耗的能量几乎全部转化为热量,必须通过冷却系统排出以防止过热。传统风冷已无法应对现代GPU集群的高热密度,因此广泛采用蒸发冷却、冷却塔等依赖大量水的系统。蒸发式冷却虽可降低电力消耗,但会大幅增加直接用水量。此外,数据中心还存在间接用水,即发电过程中消耗的水资源,两者叠加导致总体用水需求极为庞大。
Q2:液冷技术能解决数据中心的用水问题吗?
A:液冷,尤其是芯片直接液冷(D2C)系统本身不会直接蒸发或消耗水,但并不能从根本上消除用水需求。设施仍需通过冷却塔或其他方式将热量排放至外部环境,水的需求只是被转移而非消除。液冷的优势在于大幅提升散热效率和GPU性能,测试显示液冷配置可使吞吐量提升约17%,同时降低功耗,但整体水资源管理问题依然存在。
Q3:水资源短缺会如何影响AI数据中心的选址建设?
A:水资源正成为继电力之后,影响AI数据中心选址的关键限制因素。部分地区的水务部门已明确表示无法满足数据中心提出的每日数百万加仑用水申请。研究预测,若当前用水强度不变,到2030年美国数据中心每日新增用水需求可能高达14.5亿加仑。这意味着开发商在评估选址时,必须同时考虑供水容量、污水处理能力和长期抗旱规划,而非仅仅关注电力供应。
好文章,需要你的鼓励
随着AI基础设施快速扩张,水资源正成为继电力之后的另一重大制约因素。高密度GPU集群产生大量热能,需要大规模冷却水支撑,部分数据中心单日用水需求高达数百万加仑。多地水务部门已明确表示现有供水能力无法满足需求。研究预测,到2030年美国数据中心新增日用水需求可能高达14.5亿加仑。水资源短缺、废水处理压力及峰值用水波动,正深刻影响AI数据中心的选址与建设规划。
研究揭示多源视觉融合并非总有益,提出MARS框架通过单源锚点量化信息增益,动态调节多源融合优势,在多个视觉推理任务上实现显著性能提升。
CoreWeave发布新平台,支持企业部署可自主学习和优化的AI智能体。该平台通过无服务器强化学习机制,让大语言模型在真实业务环境中持续微调,无需企业自建基础设施。相比传统方式,该方案可降低超40%成本,训练速度提升约1.4倍,且不影响质量。据麦肯锡2025年AI现状报告,约62%的受访企业正在试验AI智能体,生产部署趋势日益明显。
MiniMax发布M2系列混合专家大模型,总参数2299亿但每次仅激活98亿,通过专项数据流水线、Forge强化学习系统和自进化机制,在代理编程、深度搜索等任务上达到顶级闭源模型水平。