数据中心电力架构向您发出了警告信号,它对现状很不满意。
超大规模计算建立在确定性的基础之上。多年来,12V和48V机架架构以稳定的50-54 VDC(直流电压)运行,统治着数据中心机房,这些系统经过精心工程设计,完美适配每机架10-15千瓦的功率密度。这些系统是精密调校的机器,围绕通用CPU和存储服务器可预测的稳态需求进行优化。基础设施稳定,计算结果确定。
然后加速计算到来,彻底颠覆了整个规则手册。
GPU集群和AI加速器不再遵循旧规则。它们不会要求15千瓦,而是要求每机架数百千瓦的功率,这是一个数量级的跃升,传统的电气和热力架构从未被设计来承受这种负荷。数十年数据中心设计中根深蒂固的舒适假设现在成为负担,行业正面临一场无法再推迟的清算。
例如,英伟达GB200 NVL72机架级系统每机架需要120千瓦功率。在这种功率水平下,低压配电的物理特性面临挑战。在48V电压下提供120千瓦功率需要超过2.5千安的电流。在机架内处理数千安培的电流意味着需要粗厚的母线、大量铜材、过热的连接器、显著的电阻损耗以及可维护性问题。
AI已经将行业推向48V舒适区之外,限制因素是安全高效地传输电流。解决这个问题的新兴方案是提高配电电压(400V或800V),在相同功率水平下减少电流。这就是为什么行业现在正在向高压直流(HVDC)电力架构转移,用于下一代AI工厂。
48V配电的挑战
让我们谈谈电流平方问题和电阻损耗。由于功率损耗与电流的平方成正比,即使电流的小幅减少也会显著提高效率。配电效率受焦耳电阻损耗控制(Ploss = I?R)。
在这个等式中,功率损耗与电阻成线性关系,但与电流成二次关系。这为在功率需求增长时维持低配电电压创造了非线性劣势。当机架功率需求增加时,在固定低电压下提供该功率所需的电流上升,导致更高的损耗。
对于NVL72机架系统,母线必须能够处理大约192千瓦的峰值电力,对应超过3.8千安的电流。即使使用优化的母线电阻0.1毫欧(0.0001欧),这在具有多个接头界面的全机架高度上很难实现,电阻损耗也很显著。使用焦耳电阻损耗计算,电阻损耗达到625瓦。
然而,在实际部署中,电阻包括接触界面、电缆端接和内部货架阻抗。所有这些都将复杂配电系统的总路径电阻推向0.5毫欧或更高。在0.5毫欧时,损耗增加到3125瓦。
相比之下,对于等效功率配电路径电阻,处理150安培的800V场景产生2.25瓦的功率损耗。即使我们假设高压基础设施使用较薄连接器,电阻增加10倍(1毫欧),损耗仍然只有22.5瓦。转向800V将配电损耗减少了数个数量级。因此,在不损失千瓦的情况下,这些功率可以用于计算而不是加热母线。
铜材过载和接触电阻
载流量是导体在超过其温度额定值之前可以承载的最大电流,它是横截面积的函数。随着电流密度增加,导体的横截面积必须增长以维持可接受的热限制。
要在48V下承载2.5千安,OCP开放机架v3(ORv3)规范依赖于大量、沉重的实心铜母线。承载如此高电流所需的母线重量显著。这对数据中心基础设施施加了严重的结构负荷,并占用了气流和液体冷却所需的空间。
英伟达声称,800VDC配电架构与传统配置相比,可以减少高达45%的铜用量。在AI机架的密集环境中,气流或液体冷却争夺空间,电力传输占用的体积是一个关键约束。
连接器物理特性成为接触电阻的第三个障碍。当电流上升时,机械界面的压降增加。这导致局部热量产生。在2.5千安时,仅0.1毫欧的接触电阻劣化就会产生625瓦的局部热量。
新的电力层次结构
电力层次结构分为四层。在顶层(公用事业配电),电力以中压交流电进入(通常约13.8千伏)。这个功率水平与传统设施相似,高压交流电对于远距离传输电力是高效的。关键变化是数据中心接下来发生的事情。新设计不是在各处分散多次转换和降压,而是旨在一次性将交流电转换为直流电然后分配。
在设施层面,新兴方法是执行集中式交流到直流转换,输出为高压直流。通过在源附近整流为直流,数据中心可以消除许多中间交流/直流转换,从而提高效率和可靠性。
这个概念在英伟达800VDC解决方案中得到强调。他们建议使用工业整流器在周边将13.8千伏交流馈电转换为800VDC,然后在整个数据中心内传输800VDC。较少的转换阶段简化了备份。例如,电池系统可以直接连接到直流母线。
在当今最先进的机架中,它们使用48-54 VDC母线。在ORv3中,每个机架有一个或多个电源货架,接收设施交流电(或直流电)并向服务于所有服务器的母线输出50V直流。典型的ORv3电源货架是提供高达15千瓦或18千瓦总功率的1U单元,多个货架可以并联以支持更高的机架负载。
例如,伊顿的ORv3货架在1U中提供18千瓦并连接到48V母线。这种架构相比12V机架是重大改进。然而,随着AI机架现在目标100千瓦以上,即使是48V ORv3也接近其实际限制。未来的HVDC机架可能接受800V馈电,并使用高效DC/DC转换器在货架层面降压到48V或12V域。
最终,每个服务器或加速器板必须转换到芯片使用的低电压。大电流电压调节模块接受12V或48V输入,为处理器生成低于1V的电压。随着机架配电电压上升,板载电力电子器件的负担增长。这是GaN(氮化镓)和SiC(碳化硅)器件越来越多地用于前端DC/DC和中间总线转换器的地方。
例如,Navitas半导体宣布了用于英伟达800VDC AI架构的新型GaN和SiC组件,以从电网到GPU提供更高效率和功率密度。
然而,当今AI GPU工作负载在神经网络不同层与硬件交互时,可以在毫秒内消耗大量功率。推理可能在某一时刻让机架中所有72个GPU空闲,然后突然每个都达到最大功耗,因为它们为全归约操作同步。这些阶跃负载瞬变带来了超越提供大功率的挑战。
在机架规模上,许多GPU同时运行可能导致复合瞬变,其中电流和电压在配电网络中波动。因此,工程师担心当GPU在微秒内从0到100%负载时,板的48V或12V轨道上的电压下降,或者沿母线和电缆的dI/dt感应效应导致瞬时电压下降。
为了缓解这些突发,工程师越来越将储能视为架构的一流组件。英伟达表示,处理负载峰值和亚秒级GPU功率波动的储能解决方案是其800VDC机架策略的一部分。
从ORv3到800V
当前一代数据中心电力架构是从之前的12V主板中心配电向48V机架级配电的重大进步,以模块化和高效的方式实现。超大规模公司和OCP成员对ORv3的广泛采用显示了48V电源货架、母线和兼容服务器的大型生态系统。
ORv3机架已成为AI部署的骨干,通过在48V配电下的扩展和大量并联化,支持高达80到100千瓦以上的功率。例如,Meta和微软在OCP贡献中展示的48V机架设计已经趋于一致。
英伟达对OCP的最新贡献显示了增强的48V母线设计,额定电流约为每段1400安培,突出了社区如何从低压架构中提取额外余量。这些努力也表明,我们在电流和热量方面正在接近低压配电的极限。
下一个合理步骤是开发更高电压的直流配电标准。我们正处于过渡期,许多机架将在一段时间内继续使用48V,但针对大规模AI计算的新建设已经在规划HVDC。伊顿、Vertiv和台达等公司正在开发800V兼容整流器、转换器和电力电子器件,以应对这些变化。
Q&A
Q1:为什么AI工作负载需要从48V配电升级到800V配电?
A:AI加速器如英伟达GB200 NVL72系统每机架需要120千瓦功率,是传统CPU的8倍。在48V下提供如此高功率需要超过2.5千安的电流,导致严重的电阻损耗、过热和结构负荷问题。800V配电可将电流大幅降低,减少损耗并提高效率。
Q2:800V配电相比48V配电在能效方面有多大改善?
A:根据焦耳电阻损耗公式,功率损耗与电流平方成正比。在相同功率下,800V配电的电流仅为48V的1/16.7,即使考虑更高的线路电阻,功率损耗仍可减少数个数量级。例如,从3125瓦损耗降至22.5瓦,效率提升显著。
Q3:数据中心向800V配电转换面临哪些技术挑战?
A:主要挑战包括需要重新设计整个电力基础设施、开发兼容的整流器和转换器、处理高压安全问题,以及应对AI工作负载的瞬时功率波动。此外,还需要新的储能解决方案来应对GPU负载的快速变化,以及使用GaN和SiC等新型半导体器件。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。