微软启动跨洲数据中心超级集群项目，连接千里距离训练超大参数AI模型

微软认为下一代AI模型将使用数百万亿参数，为此开始连接远距离设施构建多数据中心集群。首个节点已于十月上线，连接威斯康星州和佐治亚州数据中心。这些名为"Fairwater"的新型设施采用芯片级液冷技术，几乎零耗水。通过连接数据中心，微软能够训练更大模型，并可选择土地便宜、气候凉爽、电力充足的地点建设。该网络最终将扩展至数十万个GPU，用于匹配不同工作负载需求。

微软认为下一代AI模型将使用数百万亿个参数。为了训练这些模型，微软不仅在建设更大、更高效的数据中心，还开始使用跨越数百或数千英里的高速网络连接远距离设施。

这个多数据中心集群的第一个节点已于10月上线，连接了微软位于威斯康星州芒特普莱森特的数据中心园区与佐治亚州亚特兰大的设施。

这家软件巨头的目标是最终使用类似于今天在多个服务器间分布高性能计算和AI工作负载的方法，在数据中心间扩展AI工作负载。

微软Azure首席技术官Mark Russinovich在一份声明中表示："要改进AI的能力，你需要拥有越来越大的基础设施来训练它。现在训练这些模型所需的基础设施数量不只是一个数据中心，也不是两个，而是多个数据中心。"

这些也不是普通的数据中心。这些设施是微软称为"Fairwater"集群系列中的首批设施。这些设施有两层楼高，使用直接芯片液体冷却技术，微软声称几乎"零用水"。

最终，微软设想这个数据中心网络将扩展到数十万个多样化的GPU，这些GPU将根据工作负载和可用性进行选择。在其亚特兰大设施，微软将部署英伟达的GB200 NVL72机架系统，每个系统额定承载超过120千瓦的设备，并提供720 petaFLOPS的稀疏FP8计算用于训练，由13TB HBM3e内存提供支持。

分散负载

通过连接数据中心，微软将能够训练更大的模型，并为自己提供为设施选择不同位置的机会——这意味着它可以选择土地便宜、气候凉爽，以及最重要的是能够获得充足电力的地方。

微软没有具体说明它使用什么技术来连接这两个数据中心之间大约1000公里的距离，但它有很多选择。

上个月，思科发布了思科8223，这是一款51.2 Tbps路由器，旨在连接距离高达1000公里的AI数据中心。博通打算其8月份宣布的Jericho 4硬件来完成同样的工作并提供类似的带宽。

与此同时，英伟达在AI热潮的推动下悄然成为世界上最大的网络设备供应商之一，它已经预告了其Spectrum-XGS网络交换机，加密货币挖矿转GPU租赁公司Coreweave已签约成为早期采用者。

我们已要求微软就其在Fairwater设施使用哪些技术发表评论，如果收到回复将更新这个故事。但微软与英伟达的密切关系确实使Spectrum-XGS成为可能的竞争者。

微软是为数不多的在其高性能计算环境中标准化英伟达InfiniBand网络协议而非以太网或专有数据结构（如亚马逊网络服务的EFA）的超大规模云服务商之一。

虽然微软在连接数据中心方面不乏选择，但在不产生带宽或延迟相关损失的情况下分布AI工作负载仍然是研究人员关注的话题。

他们正在取得良好进展：读者可能还记得，今年早些时候，谷歌的DeepMind团队发布了一份报告，显示许多挑战可以通过在训练期间压缩模型和战略性地安排数据中心间通信来克服。

Q&A

Q1：微软的Fairwater集群有什么特点？

A：Fairwater集群是微软新一代数据中心，具有两层楼高的结构，使用直接芯片液体冷却技术，几乎"零用水"消耗。这些设施将部署英伟达的GB200 NVL72机架系统，每个系统能承载超过120千瓦设备并提供720 petaFLOPS计算能力。

Q2：为什么微软要建设跨洲数据中心集群？

A：因为下一代AI模型将使用数百万亿个参数，单个或两个数据中心已无法满足训练需求。通过连接远距离数据中心，微软能训练更大的模型，同时可以选择土地便宜、气候凉爽且电力充足的地方建设设施。

Q3：微软如何解决跨数据中心AI训练的技术挑战？

A：微软使用高速网络连接相距约1000公里的数据中心，可能采用思科8223路由器、博通Jericho 4或英伟达Spectrum-XGS等技术。同时参考谷歌DeepMind的研究成果，通过训练期间压缩模型和战略性安排数据中心间通信来克服带宽和延迟问题。

来源：The Register

0赞

好文章，需要你的鼓励

微软启动跨洲数据中心超级集群项目，连接千里距离训练超大参数AI模型

来源：The Register

2025

11/13

11:36

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Anthropic宣布500亿美元数据中心建设计划

CIO如何发现并解决AI隐性成本问题

Qumulo推出自主AI管理和GPU数据传输功能

红帽 Linux 获得离线管理、量子威胁缓解和新AI功能

谷歌推出私有AI计算服务保护用户隐私数据

OpenAI发布更智能温暖的GPT-5.1版本

AI时代CIO必备的7种行为特征

谷歌最新AI举措证明苹果走对了路，至少在隐私方面如此

谷歌推出云端Private AI Compute系统保护Pixel设备数据安全

长寿研究能否成为新时代的曼哈顿计划

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会