人工智能处理中图形处理单元(GPU)对电力和冷却的巨大需求,正在使直接芯片液冷成为必需选项。
这是从传统数据中心向AI工厂转变的关键因素。
这意味着数据中心格局将发生重大变化,可能标志着本地数据中心的终结,因为成本和复杂性都已超出企业自建能力的范围。
这些是数据中心设备供应商施耐德电气上周举办的活动中的核心要点,行业人士在会上讨论了数据中心领域即将到来的未来,并参观了TeraWulf在安大略湖畔正在建设的750兆瓦站点。
在这组四篇系列文章中,我们将探讨TeraWulf站点的快速建设进度、GPU功率的巨大飞跃如何决定数据中心设计变革、它们对电网和用水的影响,以及锈带如何让位于AI工厂的全景图。
AI驱动的能源消耗大幅增长带来了数据中心设计的阶段性变革。其核心是为GPU供电和冷却的需求,这在传统风冷数据中心中并不必要。因此AI工厂应运而生。
数据中心冷却曾是工业暖通空调设计中可预测的工作,将服务器装入机架并用冷空气吹过机箱即可。AI改写了这个故事。
驱动AI革命的硬件——尤其是GPU——在热密度和电密度方面的运行水平,使传统风冷方法变得过时。大语言模型训练和推理的硅芯片需求无法通过更多或更快的风扇来维持。
相反,行业面临一个拐点,必须采用直接芯片液冷技术,并将机架级电力传输转变为800伏直流电(VDC)。
液冷成为强制要求
"液冷不是一个选项,而是强制性的,"施耐德电气旗下热管理公司Motivair的首席执行官Rich Whitmore说,该公司于2024年被后者收购。"这是所有这些高压处理器的基准。转折点出现在大约700瓦处理器(GPU)时,比如H100。那是在风冷物理定律的规则弯曲与现实之间的交叉点。人们根本没有选择了。"
支撑这一转变的物理原理是,当单个处理器超过700瓦阈值时,空气无法移动得足够快或容纳足够的热能来防止硅芯片降频或熔化。
虽然历史上企业机架平均功率为10千瓦至50千瓦,但现代AI训练环境通常部署140千瓦和150千瓦的集群。200千瓦的系统即将推出,兆瓦级机架的参考架构已为本十年末做好准备。
这种能量集中度将100%的电力输入转化为热量,占地面积仅相当于一台冰箱。
矛盾的是,这种转变释放了热力学效率。传统数据中心需要耗能的制冷设备来提供高度冷却的空气。液冷系统以更温暖的流体温度运行,允许运营商使用高温冷却器或流体到空气的干式冷却器。
"风冷数据中心就像老式大众发动机,负载产生的热量直接排放到空间中,"施耐德电气冷却技术和产品开发负责人Tuan Hoang说。"液冷就像现代汽车。散热器从发动机中移除热量。当你转向这些闭环散热器时,冷却AI工厂实际上不需要消耗水。"
800伏直流电成为新标准
虽然热限制正在将流体动力学引入数据中心白色空间——IT硬件所在的创收区域——但驱动200千瓦至400千瓦服务器配置所需的电流将压垮现有的低压配电框架。
到目前为止,云设施依赖于开放计算项目(OCP)标准,将交流电(AC)输送到机架,内部电源将其转换为48伏或54伏直流电来供应各个服务器。但是,随着机架密度攀升超过200千瓦,事情在机械和结构上变得不可能。
"当你尝试使用该架构时,你开始失去余地,"施耐德电气AI和数据中心首席倡导者Steven Carlini说。"这实际上是一个机械和电气问题。现在,你有八根电源线进入这些高密度机架。当你接近兆瓦时,你需要32根更大的电缆进入这个东西,这是不切实际的。"
为了规避这一瓶颈,数据中心设计正在果断转向800伏直流电供电。更高的电压等于更少的电流,等于更小的电缆。通过将配电架构升级到高压直流电,数据中心运营商可以减少进入机柜的铜线的厚度、重量和复杂性。
这种电气转型需要新的供电设计,可以来自为混合环境和棕地改造设计的所谓"边车架构",将电力转换基础设施从主IT机架中取出并放置在计算硬件旁边,或者针对绿地站点的集中式配电,其中交流到直流转换在设施级别、配电间或行尾的上游进行。
硅级变化的连锁效应
将数据中心重新设计到硅级别从根本上改变了基础设施的设计和维护方式。当计算集群以当前速度扩展时,微小的电气异常或热量下降会带来灾难性的商业后果。
"数据中心正在发生根本性变化,"施耐德电气安全电源和数据中心执行副总裁Manish Kumar说。"我们认为数据中心正在成为规模和复杂性巨大的AI工厂。你必须重新想象如何设计、建造或将数据中心推向市场,并在整个生命周期中全面思考数据中心。"
这种工业复杂性始于物理部署开始之前的数字孪生建模。因为AI开发人员每天GPU闲置等待电力都会面临巨额财务罚款,提前模拟热负载和电气选择性可以降低资本支出风险并压缩部署时间表。
同时,过渡到800伏直流电框架引入了系统保护问题。与交流系统不同,高压直流电路缺乏更容易断开电路的零点。这需要开发专门的固态断路器,以便如果在刀片级别发生单个故障,只有该特定断路器跳闸,而不会导致整个价值数百万美元的训练集群瘫痪。
数据中心正处于十字路口。运营商和企业基础设施面临战略性分叉:放弃传统风冷和低压电力传输,或者随着AI时代的物理现实将现有基础设施抛在后面而可能面临淘汰。
AI直接芯片冷却是否终结了本地数据中心?
首席信息官们一直处于一种舒适的平衡状态,企业数据模型演变为混合形式。在这种模式中,非关键的弹性工作负载迁移到公共云,而敏感的核心业务系统、专有数据集和可预测的处理负载则保留在企业内部的传统风冷本地服务器机房中。
AI可能打破这种模式。随着从标准中央处理器计算转向加速GPU集群,现代AI硬件的物理要求无法与传统本地设计兼容。
随着下一代硅芯片要求强制性的直接芯片液冷和前所未有的功率密度,这是否意味着本地企业数据中心的终结?
液冷对大多数企业不可行?
正如我们所见,基础设施拐点的根源在于AI硬件的热强度。
对于行业中的一些人来说,部署液冷框架所需的复杂性和资本支出意味着本地AI对绝大多数企业来说是不可行的。
过去,企业可以建造高质量的数据中心建筑,安装电气和冷却基础设施,并在15年内可靠地运行三代、四代甚至五代连续的IT硬件更新,而无需改变底层设施。
AI硬件打破了这种模式。芯片设计的加速意味着每一代连续的AI处理器都带来新的物理尺寸、功率配置和流体流动要求,这些与仅在一年前建造的基础设施根本不兼容。
"在数据中心的旧时代,你会建造建筑和设施、电力和冷却系统,你可以进行三次、四次和五次IT更新,"Cloudflare客户经理Chris Burnett说。"今天的数据中心……很少有人会为下一代建造双倍规模的电力和冷却。你是为今天建造的;这极具挑战性。"
对于企业首席信息官来说,商业影响是建造能够处理200千瓦机架的本地数据中心需要数百万英镑的专业前期资本支出。如果该定制设施设计在单个IT生命周期内就变得过时,因为下一代硅芯片需要完全不同的流体动力学或更高的电压,那么财务投资回报就会蒸发。
因此,外包给大型公共云超大规模提供商或专业多租户托管提供商的论点变得令人信服。
还是所有人的民主化部署?
其他人则认为,宣布企业数据中心死亡为时过早。从这个角度来看,企业AI的长期未来不会仅由单一的基础模型训练组成——这无疑属于专业的超大规模环境。相反,普通企业的真正商业价值在于在专有企业数据上微调更小、高度安全、特定领域的模型。
"企业会部署直接液冷还是这将超出他们的能力范围?我认为他们肯定会,"施耐德的Carlini说。"他们肯定会转向直接芯片液冷。"
他说,随着直接芯片液冷技术的成熟,市场将经历工业标准化过程,基础设施提供商将提供模块化、自包含的"即插即用"液冷机柜,专门设计用于适应现有的企业占地面积。
Carlini强调,一旦跨越最初的机械障碍,液体系统固有的热力学效率就会对企业有利。"凭借液冷的效率和你可以运行的温度,用水量要少得多,"他说。
通过以明显更温暖的流体温度运行,这些系统消除了对大型、复杂的外部制冷装置的需求,可能使本地化高密度计算在运营上比传统风冷系统更高效。
混合模式可能是关键
同时,还有可能采用围绕AI生命周期阶段构建的混合方法。
对于资源密集型的训练阶段——数千个GPU必须紧密集群在一起,在数周或数月内摄取PB级数据——企业数据中心绝对不可行。这项工作将外包给拥有原生800伏直流电配电和高容量液冷回路的专业超大规模或托管环境。
但是一旦模型训练完成,运营重点完全转向推理,每次查询所需的计算密度要低得多,并且必须在物理上靠近公司的运营数据存储,以最小化网络延迟并遵守数据保护法规。
这就是Carlini描述的本地液冷服务可能找到归宿的地方。在这种情况下,企业数据中心将被改造以支持紧凑、高效的液冷推理区域。
首席信息官应审核其需求
直接芯片液冷的出现已经瓦解了传统的数据中心手册。传统的企业服务器机房无法适应现代加速硅芯片的物理特性。
试图将AI工作负载强行塞入传统风冷配置的首席信息官可能面临热降频、能源浪费和成本飙升。但同样,那些试图建造本地超大规模数据中心复制品的人也面临基础设施资本锁定的风险,这些基础设施可能在下一代芯片时就过时了。
前进的道路需要严格的、应用驱动的基础设施方法。首席信息官应该将其AI应用管道与高密度训练需求和本地化推理分开审核。
混合模式可以利用专业托管提供商的规模来完成繁重的工作,同时准备其内部团队采用标准化的闭环液体系统进行安全推理。
Q&A
Q1:为什么GPU必须使用液冷技术?
A:当单个GPU处理器功率超过700瓦阈值时,空气无法移动得足够快或容纳足够的热能来防止硅芯片降频或熔化。现代AI训练环境的机架功率通常达到140-150千瓦,甚至200千瓦,传统风冷方法已经完全过时,液冷成为强制性要求而非可选项。
Q2:800伏直流电供电相比传统供电有什么优势?
A:随着机架密度攀升超过200千瓦,传统低压配电需要大量粗大电缆,当接近兆瓦级时需要32根甚至更多大型电缆,这在机械和结构上不切实际。800伏直流电供电采用更高电压、更少电流的方式,可以大幅减少进入机柜的铜线厚度、重量和复杂性。
Q3:本地数据中心是否会因为AI技术而完全消失?
A:不会完全消失,更可能是混合模式。资源密集型的AI模型训练需要外包给专业的超大规模数据中心,但模型训练完成后的推理阶段,企业仍需要在本地部署以减少网络延迟并符合数据保护法规。企业数据中心将被改造为支持紧凑高效的液冷推理区域。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。