数据中心正处于AI超级周期的核心位置。训练和运行AI模型所需的基础设施,推动了对电力、冷却、机房空间、高速网络以及专用计算资源的历史性需求。
在以数据中心为主题的行业展会上,例如佛罗里达州举办的Metro Connect,电力、冷却与地产(包括融资)始终是会议和走廊交流的焦点话题。Omdia预测,到2030年,全球IT负载电力容量将达到314吉瓦,较当前增长2.9倍,这一增长主要由AI驱动。没有稳定的电力,AI便无从谈起,因此为这些超大规模数据中心建设并输送电力至关重要。
网络与专用计算同样是AI革命不可或缺的组成部分。迄今为止,这些话题通常在不同的论坛中讨论,例如英伟达的GTC大会或OFC光纤通信展会。由于这种分散化,人们很容易忽视这些关键要素之间的相互关联与相互依存关系。未来,数据中心运营商将越来越需要了解网络与连接技术将如何推动或制约其AI部署计划。
横向扩展:AI连接的新范式
一个典型案例是被称为"横向扩展"的新兴应用场景。这一概念由英伟达CEO黄仁勋于2025年提出,描述的是数据中心之间专门面向AI后端工作负载的高带宽连接,涵盖训练与推理任务。这一新型数据中心互联模式成为今年OFC大会的重要议题,同样出现在3月同期举办的年度Optica高管论坛上。
为何需要横向扩展?根源仍在于AI GPU对电力的巨大需求。
电力需求已大到单一设施难以承载。以大型托管数据中心为例,其IT负载通常在50至100兆瓦之间,而下一代超大规模训练集群的规划电力需求已达到1吉瓦,部分案例甚至更高。这些集群将以分布式、多设施园区的形式建设,有时因客观需要横跨多个电网。
但要使其作为单一集群运行,建筑之间必须具备高容量(800 Gbps以上)、低延迟、低抖动、超高可用性的光纤连接。这正是横向扩展所要实现的目标。
电力需求正在重塑数据中心基础设施
除横向扩展外,电力获取还催生了影响连接方式的第二大趋势:远郊选址建设。美国历史上超大规模及大型托管数据中心的集中地包括北弗吉尼亚、达拉斯/沃斯堡、北加利福尼亚以及太平洋西北地区。
然而,这些地区的可用电力日益紧缺,获取成本高昂,等待周期长达两至五年。因此,业界正在目睹大量大型数据中心项目涌向新兴选址,通常位于土地资源充裕、电力供应及时可靠的农村地区。这些地点包括宾夕法尼亚州兰开斯特、田纳西州孟菲斯、俄亥俄州哥伦布、佐治亚州农村地区、新墨西哥州等众多地点。
所有这些地点都需要建设通往枢纽位置的大规模光纤容量,否则这些超大规模数据中心将沦为孤立的信息孤岛。值得注意的是,由于这些地点的选择主要基于电力供应,光纤容量往往极为匮乏,且距主要城市圈的距离往往长达数百公里,有时甚至超过1000公里。
毫无疑问,AI对电力的需求是当今数据中心建设的首要驱动力,无论是为训练任务构建多站点AI集群,还是在偏远的怀俄明州建设吉瓦级园区。这些趋势必将持续演进,而随着趋势深化,光纤连接也必须越来越多地纳入规划方程之中。
此前曾有观点认为,没有电力便没有AI。但这一说法需要补充:没有电力和光纤连接,同样不会有AI。
Q&A
Q1:什么是横向扩展,为什么AI数据中心需要它?
A:横向扩展是英伟达CEO黄仁勋于2025年提出的概念,指数据中心之间专门用于AI后端工作负载(包括训练与推理)的高带宽连接方式。由于下一代超大规模训练集群的电力需求已达到1吉瓦甚至更高,单一设施无法承载,必须采用分布式多设施架构。为使这些设施作为单一集群运行,需要800 Gbps以上、低延迟、低抖动、高可用性的光纤连接,这正是横向扩展所要解决的问题。
Q2:到2030年全球AI数据中心的电力需求会达到多少?
A:根据Omdia的预测,到2030年全球IT负载电力容量将达到314吉瓦,相比当前水平增长约2.9倍,这一增长主要由AI驱动。电力需求的急剧扩张,正在推动数据中心向电力资源充裕的农村和偏远地区扩展建设。
Q3:数据中心为什么开始向农村偏远地区转移?
A:由于北弗吉尼亚、达拉斯等传统数据中心集中地的可用电力日益紧缺,获取成本高且等待周期长达两至五年,行业开始将大规模数据中心项目转移至土地充裕、电力供应及时可靠的农村地区。但这些新兴选址往往缺乏光纤基础设施,距主要城市圈可达数百至1000公里,因此大规模光纤建设成为配套的重要挑战。
好文章,需要你的鼓励
企业谈AI基础设施时,注意力往往首先集中在模型、GPU和算力集群上。但当大模型应用走向规模化推理,一个瓶颈开始浮现:算力采购完成,并不意味着Token能够被稳定、低成本、可控地交付出去。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。