关于AI数据中心电力消耗的讨论已经到了白热化阶段。为此,政策制定者、公用事业机构和科技公司正在积极探讨如何在不推高普通消费者电费的前提下,建设足够的发电能力以满足需求。然而,有一个关键问题却出人意料地少有人关注:AI数据中心为何需要消耗如此庞大的电力?
问题的答案在很大程度上并不在于AI模型本身,而在于数据中心如何应对现代AI工作负载所带来的电力需求剧烈波动。在削减用电量的压力下,业界已无法继续依赖次要工作负载平滑电力需求等传统方法。
工作负载波动如何加剧电力消耗
问题的根源在于大型AI模型的训练方式。现代训练通常采用批量同步模式:数千块GPU并行计算,随后短暂暂停以交换数据、同步集群内的计算结果。在这些暂停期间,大量GPU处于闲置状态,随后再重新启动运行。
在超大规模场景下,这种同步闲置期会导致整个数据中心的电力需求出现急剧且快速的下降。这类波动会对变压器、配电单元乃至上游电网组件造成压力,存在引发停电或高代价宕机的风险。
数据中心运营商应对这类波动最常见的方式之一,是在GPU即将空闲时运行次要工作负载。这些工作负载并非主要AI训练任务的组成部分,其存在目的仅在于防止GPU闲置期间电力需求跌幅过大。它们运行的时间恰好足以填补短暂的电力低谷,并在主要计算任务恢复时立即让步。例如,在甲骨文(Oracle),这一过程由毫秒级的"GPU心跳"机制引导,持续监测GPU活动状态,并以近乎即时的响应触发次要工作负载。
这种方式虽然稳定了数据中心的电力需求曲线,却在不必要地推高了整体电力消耗,并引入了其他低效因素,这些问题在大规模部署时会迅速叠加放大。
次要工作负载的隐性代价
次要工作负载通常分为两类:一类是在闲置期间执行有效任务的生产性工作负载,另一类是仅为维持稳定电力曲线而存在的虚假工作负载。两者都存在明显的权衡取舍。
生产性工作负载。在某些情况下,运营商会部署生产性次要工作负载——即那些迟早需要执行、可充分利用GPU闲置周期的任务。然而,这类工作负载会与主要AI训练任务争夺GPU资源、内存带宽和热功耗余量,最终导致主要工作负载的实际性能下降,表现为训练周期延长、同步开销增加或吞吐量降低。
换言之,生产性次要工作负载是以牺牲性能为代价来稳定电力需求的。在大型AI集群的规模下,即便是微小的效率损失,也会转化为训练时间、成本和上市周期的显著增加。
虚假工作负载。当性能不容妥协时,运营商便会转向虚假工作负载,即执行毫无意义计算的任务。虚假工作负载虽不干扰训练性能,却也不产生任何有价值的输出。在拥有数万块GPU的大型数据中心中,这是一种规模庞大却几乎不为人知的能源浪费来源。
连锁运营影响
尽管运行次要工作负载通常被视为一种次要的电力管理手段,但它会引发一系列连锁运营后果,其影响远不止于电力浪费或性能损失。
运营成本上升。维持峰值电力水平全面推高了运营成本。电力、冷却和基础设施都必须按支撑最高可能负载的标准来配置,即使实际工作负载只是间歇性地需要这种容量。
电网接入周期延长。此外,峰值负载较高的设施接入电网所需的时间也更长。公用事业机构基于项目的最大电力需求来评估项目可行性。若公用事业机构需要分配超出现有容量的发电或输电资源,审批进度便会受阻,基础设施成本也随之攀升。
设备损耗加速。最后,持续在最高利用率下运行硬件会加速设备的损耗。GPU、电力系统和冷却基础设施在长期峰值运行状态下承受更大的热应力和电气应力,设备寿命因此缩短,维护成本也随之增加。
为何此刻尤为重要
若业界真正致力于降低AI数据中心的电力消耗,就必须超越次要工作负载等权宜之计,转而采用更智能的方式来管理快速的电力需求波动。无论是生产性工作负载还是虚假工作负载,以额外计算来平滑电力曲线,本质上都是以高昂代价替代更优系统设计的临时方案,反而加剧了业界正竭力解决的电力难题。
这一问题在当下尤为紧迫,因为相关制约已不再停留于理论层面。电网接入延迟正在拖慢项目进度,电力成本受到日益严格的审视,社会各界也越来越多地在追问:AI所创造的价值是否值得其不断攀升的能耗代价?这场讨论不能只聚焦于以多快的速度建设更多电力,还必须关注如何更加智慧地利用现有电力。以更高效、更具针对性的解决方案来应对工作负载波动,无法解决AI供电面临的所有挑战,但它将立即消除一个长期被忽视的重大浪费根源。
Q&A
Q1:AI数据中心电力消耗为什么那么高?
A:AI数据中心耗电量高的一个重要但常被忽视的原因,是数据中心为了应对AI工作负载造成的电力需求剧烈波动,需要持续运行次要工作负载。现代AI模型训练采用批量同步模式,数千块GPU在暂停同步期间进入闲置状态,造成电力需求骤降,影响电网稳定。为此,运营商会在GPU闲置时运行额外任务来填补电力低谷,从而人为推高了整体电力消耗。
Q2:什么是次要工作负载?数据中心为什么要用它?
A:次要工作负载是数据中心在GPU闲置期间运行的额外任务,分为生产性工作负载和虚假工作负载两类。前者执行有实际价值的任务,但会占用GPU资源,影响主要训练任务的性能;后者仅执行无意义的计算,专门用于维持稳定的电力需求曲线。运营商使用次要工作负载的目的是防止电力需求骤降,保护变压器、配电单元等基础设施,避免停电或宕机风险。
Q3:解决AI数据中心电力浪费问题有什么建议?
A:文章指出,业界应放弃依赖次要工作负载这类权宜之计,转向更智能的系统设计来管理电力需求波动。以额外计算平滑电力曲线不仅浪费能源,还会推高运营成本、延长电网接入周期并加速硬件损耗。采用更高效、专门针对工作负载波动的解决方案,可以直接消除这一长期被忽视的能源浪费来源,有助于缓解AI数据中心面临的整体电力压力。
好文章,需要你的鼓励
欧洲量子计算初创公司Alice & Bob正式推出其首款完整量子硬件平台——Helium量子系统,标志着该公司从量子芯片制造商升级为完整系统开发商。该系统基于独特的"猫量子比特"架构,仅需18个猫量子比特即可实现首个逻辑量子比特的编码,并集成了处理器架构、控制电子设备及监控软件Starboard。系统功耗仅40千瓦,支持量子与经典计算资源的协同部署,面向高性能计算场景开放研究合作。
本研究发现AI视频生成中物理幻觉的根源是去噪过程中的相位侵蚀,并提出免训练方法PhaseLock,用两步推理的运动先验引导完整生成,物理一致性平均提升6.2分。
Intuit首席AI官Ashok Srivastava对外界盛传的"AI颠覆SaaS"论调保持冷静,认为SaaS行业的演变本是持续循环的一部分。他表示,公司通过引入AI智能体,过去一年开发速度提升40%,五年内开发效率提升12倍。QuickBooks Live订阅量因AI加入翻倍增长,QuickBooks Capital平台同比增长73%。Srivastava同时强调,Intuit拒绝"Token最大化"策略,坚持以服务客户为核心,在合规监管环境下稳步推进AI落地。
本研究测试了5种AI适配方法在11种音乐风格和弦预测上的表现,发现和弦符号确能携带风格信息但不完整,控制词条与完整适配器效果相当。