2026数据中心世界大会:AI将基础设施推向新极限

在Data Center World 2026大会上,来自Oracle云基础设施、英伟达和谷歌的工程负责人指出,数据中心正从通用IT环境向高度集成的AI计算系统演进。机架密度从数十千瓦跃升至数百千瓦甚至兆瓦级,电力供应取代算力成为首要瓶颈。液冷技术已从可选项变为高密度AI系统的标配,水资源消耗成为新挑战。同时,部署周期持续压缩,超大规模运营商开始将整个园区作为集成系统统一设计。

在2026年数据中心世界大会上,来自Oracle云基础设施、英伟达和谷歌的工程负责人共同描述了一场根本性变革:数据中心正从通用IT环境演变为高度集成的计算系统,以支撑AI训练与推理任务。这一转变正渗透到基础设施的每一层——从电力与冷却架构到网络设计和建设周期。

AI工作负载将数据中心一分为二

工作负载层面的变化最为显著。Oracle云基础设施AI基础设施副总裁Ram Nagappan表示,运营商现在必须同时应对两种截然不同的AI模式:大规模训练和分布式推理。

训练工作负载需要将数万块GPU接入紧密耦合的集群,延迟与节点间距至关重要;而推理工作负载则更看重更大范围内的可用性与响应速度。

这两种需求的差异会向下传导至整个设施层面。"在建设数据中心时,必须同时将两者纳入考量,"Nagappan说,这对布局、容灾能力和网络设计都会产生影响。最终的结果是:单一设施必须同时支撑高度同步的系统与面向用户的分布式工作负载,基础复杂度大幅提升。

机架密度迈向兆瓦级

这种复杂性因机架密度的急剧攀升而进一步加剧。

谷歌数据中心技术与系统团队杰出工程师Varun Sakalkar表示,业界已经突破了过去十年的密度门槛。曾经30至40千瓦的机架,如今已迈入数百千瓦的量级,部分设计甚至逼近兆瓦范围。

这一转变催生出Sakalkar所描述的"双峰"环境:传统计算与存储基础设施沿着平缓的密度曲线缓慢增长,而AI系统则以陡峭得多的轨迹快速攀升,数据中心必须同时支撑两者。这种张力正在推动供电方式的变革,包括探索高压配电模型,以及计算与网络系统之间更紧密的集成。"我们设计的不再是一个机架,而是一套系统,"Sakalkar说。

电力成为首要制约因素

随着密度持续上升,电力供应而非算力,正逐渐成为制约瓶颈。

英伟达能源系统杰出工程师Sean James表示,运营商越来越多地依赖现场自发电来加速部署,但他同时警告,这些方案只是权宜之计。"表后电力是一种过渡手段,并非长期优选方案,"James说。

运营商一方面积极争取并网容量,另一方面引入储能系统来应对AI工作负载日趋剧烈的波动。训练集群会产生尖锐的动态负载模式,其影响甚至会波及数据中心之外。"这种冲击可以一路传导回发电厂,"James描述道,发电侧必须随工作负载行为实时调整出力。储能正成为平抑这些波动、保障电能质量,并满足新兴电网要求(例如电压事件期间的低压穿越能力)的关键手段。

冷却方式超越风冷,争议不再

冷却领域正经历类似的转型。

液冷技术曾被视为可选项或小众方案,如今已成为高密度AI系统的基础配置。"液冷已经到来,"Sakalkar说,"现在的讨论重点是如何实现标准化。"

运营商现在必须管理液冷AI系统与风冷基础设施并存的混合环境,这给设计和长期规划都带来了更大挑战。

James表示,业界在液冷系统内部同样面临规模化挑战,涵盖零部件供应链,以及高密度机架内部所需的大量连接接口。

与此同时,水资源消耗正成为一项兼具可持续性与运营风险的议题。"数据中心应尽可能在设计层面减少用水,"他说,并指出超大规模蒸发冷却的扩展之难。

速度成为设计要求

在系统日趋复杂的同时,部署周期却在持续压缩。运营商正通过将工作迁移至场外以及标准化设计来积极应对。

James表示,这一模式的核心在于:前置设计以确保跨GPU世代的灵活性、扩大预制化和工厂集成的应用以减少现场作业量,以及采用可快速组装的模块化架构。

这种模式使开发者能够更快交付容量,同时在硬件需求演进过程中保留足够的灵活性。

园区成为新的产品单元

在更宏观的尺度上,设计的基本单元再度发生转变。

超大规模云服务商不再着眼于优化单栋建筑,而是将整个园区作为集成系统来统筹规划。

Sakalkar将此描述为一种转变——将园区视为一款产品,需要在灵活性、规模与快速部署之间寻求平衡。这包括针对多种工作负载类型进行设计、保持跨硬件世代的灵活性,以及协调供应链、安装和调试各环节的部署节奏。

与传统的分阶段建设模式不同,许多AI园区现在以较大的增量方式部署,基础设施与计算资源以更紧密的同步方式上线。

系统承压

在整场讨论中,有一个主题始终贯穿:传统数据中心模式正承受巨大压力。

AI不仅在放大需求,更在改变需求的形态,并在电力、冷却和时效方面引入了全新约束。

对于运营商而言,挑战已不再是渐进式改善,而是系统性的重新设计。

对于刚刚进入这个行业的新一代从业者,来自台上的寄语直截了当:"质疑既有假设,"James说,"如果某件事不合逻辑,那它大概率真的有问题。"

Q&A

Q1:AI训练和推理工作负载对数据中心设计有哪些不同要求?

A:训练工作负载需要将数万块GPU接入紧密耦合的集群,延迟与节点间距是关键;推理工作负载则更侧重更大范围内的可用性和响应速度。两者对数据中心的布局、容灾能力和网络设计都有不同影响,运营商必须在单一设施内同时支撑这两种截然不同的系统,这大幅提升了基础设施的设计复杂度。

Q2:数据中心机架密度上升后,电力方面面临哪些挑战?

A:机架密度从过去的30至40千瓦攀升至数百千瓦甚至接近兆瓦级别后,电力供应已成为首要制约因素。AI训练集群会产生尖锐的动态负载波动,影响甚至可传导至发电厂。运营商虽借助现场自发电应急,但这只是过渡手段。储能系统正成为平抑负载波动、保障电能质量的关键,同时运营商也在积极争取稳定的并网容量。

Q3:数据中心液冷技术目前处于什么发展阶段?还面临哪些问题?

A:液冷已从可选方案变为高密度AI系统的基础配置,当前业界讨论的重点已转向如何推进标准化。目前主要挑战包括:液冷AI系统与风冷基础设施的混合管理、液冷组件的供应链瓶颈、高密度机架内部大量连接接口的工程难题,以及大规模蒸发冷却带来的水资源消耗问题,水资源管理已成为可持续运营的重要议题。

来源:DataCenterKnowledge

0赞

好文章,需要你的鼓励

2026

04/23

16:10

分享

点赞

邮件订阅