随着数据中心电力需求持续攀升,AI行业正在寻找更具创意的解决方案。其中一个最新思路是:在电力变电站旁建设微型数据中心,并统一调度,根据电力供应情况灵活调配计算任务。
这正是英伟达与合作伙伴正在推进的试点项目。他们计划在美国5家电力公司的变电站附近,建设约25座小型数据中心,每座容量在5至20兆瓦之间。一旦某座变电站出现电力过载或停电,计算任务将自动转移到有余量的变电站旁的数据中心。
为推进该项目,英伟达联合了数据中心建设商InfraPartners、房地产服务商Prologis,以及非营利机构EPRI(前身为电力研究院)。
该项目旨在探索一种让数据中心更灵活适应电力供给的新模式,同时也帮助数据中心开发商更快速地从电网获取电力资源。
"我们研究了各个变电站的闲置电力容量,发现平均约有5兆瓦可用,最高可达20兆瓦。"EPRI智能体AI倡议与分布式AI架构总监本·苏特说道。
单个变电站的容量对多数数据中心运营商而言吸引力不足,但将多个小型设施统一管理,效果相当于一个较大的数据中心。苏特表示,通过将计算任务从负载过重的变电站转移至有余量的变电站,整体可用电力最高可翻倍。
英伟达能源高级总监马克·斯皮勒补充道:"美国共有55000座变电站,如果每座都有5至20兆瓦的闲置容量,累计起来相当可观。"
随着数据中心建设持续加速,充分利用电网每一兆瓦的重要性日益凸显。据EPRI估算,到2030年,仅美国的数据中心电力消耗就可能占到全国发电量的9%至17%,较当前水平翻倍以上。用于训练AI模型的设施正在以吉瓦级规模建设,耗电量堪比一座中型城市。
面对大规模新增电力需求,数据中心开发商有时需要等待长达十年才能获得电网接入批准。为此,部分开发商正在自建天然气发电站,有的愿意承担新建输电线路的费用,还有一些则投资核聚变和新一代核裂变反应堆初创公司,押注十年后的能源供给。
然而,美国电网实际上仍有大量富余容量。杜克大学尼古拉斯能源、环境与可持续发展研究所2025年发布的报告显示,美国电网运营商平均仅使用了约53%的发电容量。
这是因为美国电力供应体系是按满足峰值需求设计的,而这些峰值通常每年出现不足200小时,其余时间大量发电机组处于闲置状态。
据Brattle Group今年3月发布的报告,如果数据中心等大型用电户能在每年仅0.25%的时间内削减用电,美国电网可额外释放约76吉瓦的容量,约占峰值需求的10%。
灵活用电还能加快数据中心接入电网的速度,并减少对新增电网基础设施的需求。此外,英伟达斯皮勒还指出,这些变电站本身已铺设有光纤网络,微型数据中心可直接接入,省去额外布线。
数据中心能够提供的灵活性,在一定程度上取决于工作负载类型。AI工作负载主要分为两类:训练与推理。
训练需要大量紧密互联的GPU协同工作。以Meta的Llama 3.1 403B模型为例,其训练过程使用了16000块GPU,历时约两个半月。训练阶段每一步都需要同步更新所有模型权重,GPU之间须通过高速互联网络连接,因此不适合分散部署在多个小型数据中心。不过,由于训练周期较长,可以在峰值用电时段短暂暂停,从而实现节能。
推理则不需要太多GPU,也不依赖复杂的高速互联。用户的单次查询输入模型后即可获得输出,无需大规模数据协调,因此非常适合在小型数据中心中运行。但推理对时延要求较高,用户期望即时响应,因此灵活性更多体现在将计算任务动态路由至电力充足的节点,而非暂停计算。
模块化数据中心公司Mod42战略与运营高级副总裁瓦莱里·克拉夫顿表示:"推理是少数可以被动态路由的工作负载之一,这意味着计算可以跟着电力走。这正是众多小型数据中心兴起的核心驱动力之一。"
英伟达与EPRI将这一基于变电站的部署策略称为"分布式推理"。该项目于今年2月宣布,计划在2026年底前启动试点数据中心的建设。英伟达和EPRI估计,计算任务需要切换至其他变电站的情况仅占约0.1%的时间。
微型数据中心的概念正在加速落地。苏特表示,当前的计算浪潮以超大型数据中心为主导,但第二波浪潮即将到来——由处理推理任务的小型数据中心构成。"科技公司正在大力推动这一趋势,因为他们预计推理计算需求将在2027年大幅攀升。"
Q&A
Q1:英伟达分布式推理项目是什么?
A:分布式推理项目是英伟达联合InfraPartners、Prologis和EPRI推进的试点计划,核心思路是在美国各地变电站旁建设约25座5至20兆瓦的小型数据中心,并统一调度,根据各变电站的电力余量动态分配AI推理计算任务,实现电力与计算的灵活匹配。
Q2:AI推理和训练在数据中心部署上有什么区别?
A:训练需要大量GPU紧密互联,必须集中部署在大型数据中心,灵活性体现在可短暂暂停;推理对GPU数量要求较低,不依赖高速互联,可在小型数据中心运行,并支持动态路由,将任务转移至电力充足的节点,因此更适合分布式部署。
Q3:变电站旁建设微型数据中心有什么优势?
A:变电站普遍存在闲置电力容量,平均约5兆瓦,最高可达20兆瓦;将多个小型数据中心联合运营,整体可用电力最高可翻倍。此外,变电站已具备光纤网络接入条件,无需额外布线,也减少了对新建输电线路和变压器等基础设施的依赖,同时有助于加快电网接入审批。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。