随着Nvidia预计在两年内将数据中心机架功耗提升至1MW,这将带来能源使用的重大变化以及大量热能浪费的可能性。
这意味着数据中心运营商必须成为电网的负责任合作伙伴。仅一个1MW机架就能产生相当于200台5kW烤箱的热量,因此数据中心行业、政府和地方当局必须消除热能再利用的障碍。
这是施耐德电气英国和爱尔兰地区副总裁Matthew Baynes在本周伦敦数据中心世界活动上的观点。他就人工智能工厂的能源问题发表了讲话。
Baynes表示:"我们看到Nvidia GPU正在向极高密度应用发生重大转变。这给我们整个行业带来了极大挑战。但首要挑战是能源生产、能源获取以及负责任地使用电力这一关键资产。"
他补充说:"最近,我们在传统数据中心设计中每机架功耗为10、15、20、40kW来支持云应用,但它们正在转变为AI工厂,因此我们过去的可预测性变得更难理解。Nvidia在GPU技术方面的发展速度使这变得非常困难。"
这里的背景是Nvidia的GPU产品路线图。虽然目前运行Nvidia Blackwell GPU的最密集数据中心机架功耗远低于200kW,但从2028年左右开始,这一数字预计将增加五到六倍。
首先,Nvidia的Rubin和Rubin-plus GPU预计将使机架功耗从今年的约240kW提升到2027年的600kW以上。然后将推出Nvidia的Feynman GPU硬件,在机架中将达到1MW。它们的功耗将高达2kW每片,每机架576片。
从技术角度来看,这将要求采用直接芯片液体冷却,而目前空气冷却已经足够。这还需要向机架提供800V直流配电,这正是施耐德产品线与此问题的交集所在。
从宏观层面来看,这一切都意味着对电力的大量且快速增长的需求,预计到2030年全球新增数据中心容量将达到240GW。
Baynes表示,对于数据中心行业而言,这意味着需要缓解能源供应限制,包括灵活使用电网和充分利用数据中心运营中产生的热量。
"我昨天参加了一个有部长参与的会议,电网情况很有挑战性,仅伦敦电网就有大约8GW的数据中心申请,"Baynes说。
"数据中心需要成为电网上的稳定资产,而不是造成干扰的资产,不是具有动态热负载开关的资产。你必须提供技术并成为电网的积极资产,这样数据中心才能以最高效率运行,对国家电网的干扰最小,"他补充说。
Baynes说:"我们还需要在热能再利用方面进行创新。我们需要利用一些混合废热。我们需要与社区合作,看看如何利用这些热能,真正成为社会的一部分,而不仅仅是一个行业。"
"挑战来自政府和法规、缺乏区域供热网络、相关规划许可,以及寻找热能接收方。这不像简单地收集热量并将其投入游泳池那么简单。在这两个方程式之间还有更多需要实现的环节,需要实施更多技术。"
Q&A
Q1:Nvidia GPU机架功耗将如何变化?
A:目前运行Nvidia Blackwell GPU的机架功耗低于200kW,但预计从2028年开始将增加五到六倍。Nvidia的Rubin系列GPU将使机架功耗从今年的240kW提升到2027年的600kW以上,而Feynman GPU硬件将在机架中达到1MW,每片功耗高达2kW,每机架576片。
Q2:1MW机架会产生多少热量?
A:仅一个1MW机架就能产生相当于200台5kW烤箱的热量。这种大量热能如果不加以利用就会造成巨大浪费,因此数据中心行业、政府和地方当局必须消除热能再利用的障碍,与社区合作寻找热能接收方。
Q3:数据中心应该如何应对电网压力?
A:数据中心需要成为电网的稳定资产而非干扰源,不能有动态热负载开关。需要提供技术并成为电网的积极资产,以最高效率运行并对国家电网造成最小干扰。同时需要灵活使用电网,缓解能源供应限制。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。