微软认为下一代AI模型将使用数百万亿个参数。为了训练这些模型,微软不仅在建设更大、更高效的数据中心,还开始使用跨越数百或数千英里的高速网络连接远距离设施。
这个多数据中心集群的第一个节点已于10月上线,连接了微软位于威斯康星州芒特普莱森特的数据中心园区与佐治亚州亚特兰大的设施。
这家软件巨头的目标是最终使用类似于今天在多个服务器间分布高性能计算和AI工作负载的方法,在数据中心间扩展AI工作负载。
微软Azure首席技术官Mark Russinovich在一份声明中表示:"要改进AI的能力,你需要拥有越来越大的基础设施来训练它。现在训练这些模型所需的基础设施数量不只是一个数据中心,也不是两个,而是多个数据中心。"
这些也不是普通的数据中心。这些设施是微软称为"Fairwater"集群系列中的首批设施。这些设施有两层楼高,使用直接芯片液体冷却技术,微软声称几乎"零用水"。
最终,微软设想这个数据中心网络将扩展到数十万个多样化的GPU,这些GPU将根据工作负载和可用性进行选择。在其亚特兰大设施,微软将部署英伟达的GB200 NVL72机架系统,每个系统额定承载超过120千瓦的设备,并提供720 petaFLOPS的稀疏FP8计算用于训练,由13TB HBM3e内存提供支持。
分散负载
通过连接数据中心,微软将能够训练更大的模型,并为自己提供为设施选择不同位置的机会——这意味着它可以选择土地便宜、气候凉爽,以及最重要的是能够获得充足电力的地方。
微软没有具体说明它使用什么技术来连接这两个数据中心之间大约1000公里的距离,但它有很多选择。
上个月,思科发布了思科8223,这是一款51.2 Tbps路由器,旨在连接距离高达1000公里的AI数据中心。博通打算其8月份宣布的Jericho 4硬件来完成同样的工作并提供类似的带宽。
与此同时,英伟达在AI热潮的推动下悄然成为世界上最大的网络设备供应商之一,它已经预告了其Spectrum-XGS网络交换机,加密货币挖矿转GPU租赁公司Coreweave已签约成为早期采用者。
我们已要求微软就其在Fairwater设施使用哪些技术发表评论,如果收到回复将更新这个故事。但微软与英伟达的密切关系确实使Spectrum-XGS成为可能的竞争者。
微软是为数不多的在其高性能计算环境中标准化英伟达InfiniBand网络协议而非以太网或专有数据结构(如亚马逊网络服务的EFA)的超大规模云服务商之一。
虽然微软在连接数据中心方面不乏选择,但在不产生带宽或延迟相关损失的情况下分布AI工作负载仍然是研究人员关注的话题。
他们正在取得良好进展:读者可能还记得,今年早些时候,谷歌的DeepMind团队发布了一份报告,显示许多挑战可以通过在训练期间压缩模型和战略性地安排数据中心间通信来克服。
Q&A
Q1:微软的Fairwater集群有什么特点?
A:Fairwater集群是微软新一代数据中心,具有两层楼高的结构,使用直接芯片液体冷却技术,几乎"零用水"消耗。这些设施将部署英伟达的GB200 NVL72机架系统,每个系统能承载超过120千瓦设备并提供720 petaFLOPS计算能力。
Q2:为什么微软要建设跨洲数据中心集群?
A:因为下一代AI模型将使用数百万亿个参数,单个或两个数据中心已无法满足训练需求。通过连接远距离数据中心,微软能训练更大的模型,同时可以选择土地便宜、气候凉爽且电力充足的地方建设设施。
Q3:微软如何解决跨数据中心AI训练的技术挑战?
A:微软使用高速网络连接相距约1000公里的数据中心,可能采用思科8223路由器、博通Jericho 4或英伟达Spectrum-XGS等技术。同时参考谷歌DeepMind的研究成果,通过训练期间压缩模型和战略性安排数据中心间通信来克服带宽和延迟问题。
好文章,需要你的鼓励
谷歌推出类似苹果私有云计算的新平台,让用户在享受先进AI功能的同时保护数据隐私。该平台将复杂AI请求转移到云端处理,确保敏感数据仅用户可见,连谷歌也无法访问。随着AI工具需要更强计算能力,这一方案平衡了隐私保护与性能需求。Pixel 10手机将获得更智能的Magic Cue建议和更多语言的录音转录功能。
StepFun团队开发了革命性的Mind-Paced Speaking技术,让AI聊天机器人首次具备边思考边说话的能力。通过双大脑架构,分别负责思考和表达的两个AI模型协同工作,实现零延迟响应的同时保持92.8%的高准确率。这项技术模拟人类大脑机制,让AI对话变得自然流畅,为人机交互开创了全新范式。
OpenAI宣布推出GPT-5的首个重大升级版本GPT-5.1,包含Instant和Thinking两个变体。新模型在对话风格上更加自然温暖,具备自适应推理能力,能根据问题复杂度调整思考深度。GPT-5.1提供八种个性化对话模式供用户选择,减少专业术语使用,提升易理解性。该升级旨在解决GPT-5发布后用户反馈的不足,将逐步向订阅用户推出。
微软和哥伦比亚大学联合开发了名为Dyna-Mind的AI训练框架,通过两阶段训练教会AI进行"心理模拟"。该框架让AI学会在行动前进行虚拟试错,显著提升了在复杂规划任务中的表现。在推箱子、虚拟家庭任务和安卓设备操作等测试中,成功率分别达到82.5%、92.5%和40.7%,远超传统方法。这项研究为开发更智能的AI助手奠定了基础。