微软认为下一代AI模型将使用数百万亿个参数。为了训练这些模型,微软不仅在建设更大、更高效的数据中心,还开始使用跨越数百或数千英里的高速网络连接远距离设施。
这个多数据中心集群的第一个节点已于10月上线,连接了微软位于威斯康星州芒特普莱森特的数据中心园区与佐治亚州亚特兰大的设施。
这家软件巨头的目标是最终使用类似于今天在多个服务器间分布高性能计算和AI工作负载的方法,在数据中心间扩展AI工作负载。
微软Azure首席技术官Mark Russinovich在一份声明中表示:"要改进AI的能力,你需要拥有越来越大的基础设施来训练它。现在训练这些模型所需的基础设施数量不只是一个数据中心,也不是两个,而是多个数据中心。"
这些也不是普通的数据中心。这些设施是微软称为"Fairwater"集群系列中的首批设施。这些设施有两层楼高,使用直接芯片液体冷却技术,微软声称几乎"零用水"。
最终,微软设想这个数据中心网络将扩展到数十万个多样化的GPU,这些GPU将根据工作负载和可用性进行选择。在其亚特兰大设施,微软将部署英伟达的GB200 NVL72机架系统,每个系统额定承载超过120千瓦的设备,并提供720 petaFLOPS的稀疏FP8计算用于训练,由13TB HBM3e内存提供支持。
分散负载
通过连接数据中心,微软将能够训练更大的模型,并为自己提供为设施选择不同位置的机会——这意味着它可以选择土地便宜、气候凉爽,以及最重要的是能够获得充足电力的地方。
微软没有具体说明它使用什么技术来连接这两个数据中心之间大约1000公里的距离,但它有很多选择。
上个月,思科发布了思科8223,这是一款51.2 Tbps路由器,旨在连接距离高达1000公里的AI数据中心。博通打算其8月份宣布的Jericho 4硬件来完成同样的工作并提供类似的带宽。
与此同时,英伟达在AI热潮的推动下悄然成为世界上最大的网络设备供应商之一,它已经预告了其Spectrum-XGS网络交换机,加密货币挖矿转GPU租赁公司Coreweave已签约成为早期采用者。
我们已要求微软就其在Fairwater设施使用哪些技术发表评论,如果收到回复将更新这个故事。但微软与英伟达的密切关系确实使Spectrum-XGS成为可能的竞争者。
微软是为数不多的在其高性能计算环境中标准化英伟达InfiniBand网络协议而非以太网或专有数据结构(如亚马逊网络服务的EFA)的超大规模云服务商之一。
虽然微软在连接数据中心方面不乏选择,但在不产生带宽或延迟相关损失的情况下分布AI工作负载仍然是研究人员关注的话题。
他们正在取得良好进展:读者可能还记得,今年早些时候,谷歌的DeepMind团队发布了一份报告,显示许多挑战可以通过在训练期间压缩模型和战略性地安排数据中心间通信来克服。
Q&A
Q1:微软的Fairwater集群有什么特点?
A:Fairwater集群是微软新一代数据中心,具有两层楼高的结构,使用直接芯片液体冷却技术,几乎"零用水"消耗。这些设施将部署英伟达的GB200 NVL72机架系统,每个系统能承载超过120千瓦设备并提供720 petaFLOPS计算能力。
Q2:为什么微软要建设跨洲数据中心集群?
A:因为下一代AI模型将使用数百万亿个参数,单个或两个数据中心已无法满足训练需求。通过连接远距离数据中心,微软能训练更大的模型,同时可以选择土地便宜、气候凉爽且电力充足的地方建设设施。
Q3:微软如何解决跨数据中心AI训练的技术挑战?
A:微软使用高速网络连接相距约1000公里的数据中心,可能采用思科8223路由器、博通Jericho 4或英伟达Spectrum-XGS等技术。同时参考谷歌DeepMind的研究成果,通过训练期间压缩模型和战略性安排数据中心间通信来克服带宽和延迟问题。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。