微软认为下一代AI模型将使用数百万亿个参数。为了训练这些模型,微软不仅在建设更大、更高效的数据中心,还开始使用跨越数百或数千英里的高速网络连接远距离设施。
这个多数据中心集群的第一个节点已于10月上线,连接了微软位于威斯康星州芒特普莱森特的数据中心园区与佐治亚州亚特兰大的设施。
这家软件巨头的目标是最终使用类似于今天在多个服务器间分布高性能计算和AI工作负载的方法,在数据中心间扩展AI工作负载。
微软Azure首席技术官Mark Russinovich在一份声明中表示:"要改进AI的能力,你需要拥有越来越大的基础设施来训练它。现在训练这些模型所需的基础设施数量不只是一个数据中心,也不是两个,而是多个数据中心。"
这些也不是普通的数据中心。这些设施是微软称为"Fairwater"集群系列中的首批设施。这些设施有两层楼高,使用直接芯片液体冷却技术,微软声称几乎"零用水"。
最终,微软设想这个数据中心网络将扩展到数十万个多样化的GPU,这些GPU将根据工作负载和可用性进行选择。在其亚特兰大设施,微软将部署英伟达的GB200 NVL72机架系统,每个系统额定承载超过120千瓦的设备,并提供720 petaFLOPS的稀疏FP8计算用于训练,由13TB HBM3e内存提供支持。
分散负载
通过连接数据中心,微软将能够训练更大的模型,并为自己提供为设施选择不同位置的机会——这意味着它可以选择土地便宜、气候凉爽,以及最重要的是能够获得充足电力的地方。
微软没有具体说明它使用什么技术来连接这两个数据中心之间大约1000公里的距离,但它有很多选择。
上个月,思科发布了思科8223,这是一款51.2 Tbps路由器,旨在连接距离高达1000公里的AI数据中心。博通打算其8月份宣布的Jericho 4硬件来完成同样的工作并提供类似的带宽。
与此同时,英伟达在AI热潮的推动下悄然成为世界上最大的网络设备供应商之一,它已经预告了其Spectrum-XGS网络交换机,加密货币挖矿转GPU租赁公司Coreweave已签约成为早期采用者。
我们已要求微软就其在Fairwater设施使用哪些技术发表评论,如果收到回复将更新这个故事。但微软与英伟达的密切关系确实使Spectrum-XGS成为可能的竞争者。
微软是为数不多的在其高性能计算环境中标准化英伟达InfiniBand网络协议而非以太网或专有数据结构(如亚马逊网络服务的EFA)的超大规模云服务商之一。
虽然微软在连接数据中心方面不乏选择,但在不产生带宽或延迟相关损失的情况下分布AI工作负载仍然是研究人员关注的话题。
他们正在取得良好进展:读者可能还记得,今年早些时候,谷歌的DeepMind团队发布了一份报告,显示许多挑战可以通过在训练期间压缩模型和战略性地安排数据中心间通信来克服。
Q&A
Q1:微软的Fairwater集群有什么特点?
A:Fairwater集群是微软新一代数据中心,具有两层楼高的结构,使用直接芯片液体冷却技术,几乎"零用水"消耗。这些设施将部署英伟达的GB200 NVL72机架系统,每个系统能承载超过120千瓦设备并提供720 petaFLOPS计算能力。
Q2:为什么微软要建设跨洲数据中心集群?
A:因为下一代AI模型将使用数百万亿个参数,单个或两个数据中心已无法满足训练需求。通过连接远距离数据中心,微软能训练更大的模型,同时可以选择土地便宜、气候凉爽且电力充足的地方建设设施。
Q3:微软如何解决跨数据中心AI训练的技术挑战?
A:微软使用高速网络连接相距约1000公里的数据中心,可能采用思科8223路由器、博通Jericho 4或英伟达Spectrum-XGS等技术。同时参考谷歌DeepMind的研究成果,通过训练期间压缩模型和战略性安排数据中心间通信来克服带宽和延迟问题。
好文章,需要你的鼓励
跨境电商平台的崛起,让家居企业不再只做幕后生产者,而是以品牌形态直接触达全球消费者,逐渐从幕后走向台前。在这一潮流中,跨境家居电商赛道的“老玩家”,致欧家居科技股份有限公司(以下简称“致欧家居”)正通过数字化供应链,重塑跨境家居电商的“护城河”。
DeepSeek-AI团队开发的DeepSeekMath-V2突破了传统数学AI只关注答案正确性的局限,首次实现了AI的"自我验证"能力。该系统在2025年IMO竞赛中达到金牌水平,在2024年普特南竞赛中得分118/120,远超人类最高分。这项技术通过训练AI像数学专家一样检查和改进自己的推理过程,为AI辅助数学研究和教育开启了新的可能。
华硕Ascent GX10 GPU采用了最新的Blackwell架构,这一架构针对Diffusion模型和Transformer等主流AI模型配备了专门的加速单元。
这项由伊利诺伊大学与谷歌联合开展的研究提出了"分离然后合并"(StM)的视频合成新方法,通过自动分解5万个视频片段创建了大规模训练数据集,解决了传统方法无法同时保持原始动作和实现环境适应的问题,让AI能像经验丰富的演员一样既保持特色又融入新场景。