微软启动跨洲数据中心超级集群项目，连接千里距离训练超大参数AI模型

微软认为下一代AI模型将使用数百万亿参数，为此开始连接远距离设施构建多数据中心集群。首个节点已于十月上线，连接威斯康星州和佐治亚州数据中心。这些名为"Fairwater"的新型设施采用芯片级液冷技术，几乎零耗水。通过连接数据中心，微软能够训练更大模型，并可选择土地便宜、气候凉爽、电力充足的地点建设。该网络最终将扩展至数十万个GPU，用于匹配不同工作负载需求。

微软认为下一代AI模型将使用数百万亿个参数。为了训练这些模型，微软不仅在建设更大、更高效的数据中心，还开始使用跨越数百或数千英里的高速网络连接远距离设施。

这个多数据中心集群的第一个节点已于10月上线，连接了微软位于威斯康星州芒特普莱森特的数据中心园区与佐治亚州亚特兰大的设施。

这家软件巨头的目标是最终使用类似于今天在多个服务器间分布高性能计算和AI工作负载的方法，在数据中心间扩展AI工作负载。

微软Azure首席技术官Mark Russinovich在一份声明中表示："要改进AI的能力，你需要拥有越来越大的基础设施来训练它。现在训练这些模型所需的基础设施数量不只是一个数据中心，也不是两个，而是多个数据中心。"

这些也不是普通的数据中心。这些设施是微软称为"Fairwater"集群系列中的首批设施。这些设施有两层楼高，使用直接芯片液体冷却技术，微软声称几乎"零用水"。

最终，微软设想这个数据中心网络将扩展到数十万个多样化的GPU，这些GPU将根据工作负载和可用性进行选择。在其亚特兰大设施，微软将部署英伟达的GB200 NVL72机架系统，每个系统额定承载超过120千瓦的设备，并提供720 petaFLOPS的稀疏FP8计算用于训练，由13TB HBM3e内存提供支持。

分散负载

通过连接数据中心，微软将能够训练更大的模型，并为自己提供为设施选择不同位置的机会——这意味着它可以选择土地便宜、气候凉爽，以及最重要的是能够获得充足电力的地方。

微软没有具体说明它使用什么技术来连接这两个数据中心之间大约1000公里的距离，但它有很多选择。

上个月，思科发布了思科8223，这是一款51.2 Tbps路由器，旨在连接距离高达1000公里的AI数据中心。博通打算其8月份宣布的Jericho 4硬件来完成同样的工作并提供类似的带宽。

与此同时，英伟达在AI热潮的推动下悄然成为世界上最大的网络设备供应商之一，它已经预告了其Spectrum-XGS网络交换机，加密货币挖矿转GPU租赁公司Coreweave已签约成为早期采用者。

我们已要求微软就其在Fairwater设施使用哪些技术发表评论，如果收到回复将更新这个故事。但微软与英伟达的密切关系确实使Spectrum-XGS成为可能的竞争者。

微软是为数不多的在其高性能计算环境中标准化英伟达InfiniBand网络协议而非以太网或专有数据结构（如亚马逊网络服务的EFA）的超大规模云服务商之一。

虽然微软在连接数据中心方面不乏选择，但在不产生带宽或延迟相关损失的情况下分布AI工作负载仍然是研究人员关注的话题。

他们正在取得良好进展：读者可能还记得，今年早些时候，谷歌的DeepMind团队发布了一份报告，显示许多挑战可以通过在训练期间压缩模型和战略性地安排数据中心间通信来克服。

Q&A

Q1：微软的Fairwater集群有什么特点？

A：Fairwater集群是微软新一代数据中心，具有两层楼高的结构，使用直接芯片液体冷却技术，几乎"零用水"消耗。这些设施将部署英伟达的GB200 NVL72机架系统，每个系统能承载超过120千瓦设备并提供720 petaFLOPS计算能力。

Q2：为什么微软要建设跨洲数据中心集群？

A：因为下一代AI模型将使用数百万亿个参数，单个或两个数据中心已无法满足训练需求。通过连接远距离数据中心，微软能训练更大的模型，同时可以选择土地便宜、气候凉爽且电力充足的地方建设设施。

Q3：微软如何解决跨数据中心AI训练的技术挑战？

A：微软使用高速网络连接相距约1000公里的数据中心，可能采用思科8223路由器、博通Jericho 4或英伟达Spectrum-XGS等技术。同时参考谷歌DeepMind的研究成果，通过训练期间压缩模型和战略性安排数据中心间通信来克服带宽和延迟问题。

来源：The Register

0赞

好文章，需要你的鼓励

微软启动跨洲数据中心超级集群项目，连接千里距离训练超大参数AI模型

来源：The Register

2025

11/13

11:36

分享

点赞

AWS为Nutanix AHV虚拟化平台新增混合云存储支持

MiniMax发布M2.1大语言模型，大幅提升多语言编程能力

微软Project Silica玻璃存储技术取得重大进展

ServiceNow以775亿美元收购物联网安全初创公司Armis

亚马逊AI助手Alexa+新增四项服务整合

CIO应该重新思考IT路线图制定方式吗

2025年回顾：CIO直面业务与技术双重需求挑战

全球汽车后装远程信息服务订阅量突破9000万大关

2025年终端用户计算领域十大热点事件

Osmium存储分析师展望2026年及未来

Sama X获约旦星链服务授权即将开始运营

2025年金融服务业十大热点事件回顾

Anthropic宣布500亿美元数据中心建设计划

CIO如何发现并解决AI隐性成本问题

Qumulo推出自主AI管理和GPU数据传输功能

红帽 Linux 获得离线管理、量子威胁缓解和新AI功能

谷歌推出私有AI计算服务保护用户隐私数据

OpenAI发布更智能温暖的GPT-5.1版本

AI时代CIO必备的7种行为特征

谷歌最新AI举措证明苹果走对了路，至少在隐私方面如此

谷歌推出云端Private AI Compute系统保护Pixel设备数据安全

长寿研究能否成为新时代的曼哈顿计划

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: