在今年的开放计算项目峰会上,英伟达公司朝着将数据中心重新定义为大型人工智能工厂的目标又迈出了重要一步。
该公司宣布,Meta平台公司和甲骨文公司将采用其Spectrum-X以太网网络平台,这是一个专为AI工作负载设计的定制系统,能够将数百万个图形处理器连接成一个统一的网络结构。
对于Meta和甲骨文来说,这不仅仅是网络升级,而是对AI规模计算新架构或AI工厂的押注。对于整个行业来说,这标志着一个明确的转变:以太网不再是"足够好"的AI解决方案,而是正在为AI重新发明。
Spectrum-X:专为AI工作负载而生
与为AI改装的传统以太网解决方案不同,英伟达Spectrum-X从底层设计就是为了处理大规模AI工作负载的通信模式——大规模全对全GPU同步、低延迟消息传递和拥塞易发流量。
正如我在AI工厂系列节目中讨论的那样,Spectrum-X代表了专门构建的网络堆栈,通过消除瓶颈、最大化GPU利用率并支持数据中心内部和千兆规模跨数据中心部署来加速生成式AI。
这种专门构建的方法是英伟达在大规模释放性能提升的路径。该公司声称,与传统以太网相比,AI通信的网络性能提高了1.6倍——这一飞跃直接转化为更少的GPU空闲时间和训练推理期间更高的吞吐量。
Meta的开放网络获得AI加速层
Meta将Spectrum-X集成到其Facebook开放交换系统(FBOSS)和Minipack3N交换机中,标志着开放网络的关键时刻。它将Meta的开放硬件和软件理念扩展到AI基础设施层——现在作为针对万亿参数模型时代调优的加速骨干网服务。
正如Meta网络工程副总裁Gaya Nagarajan所说:"Meta的下一代AI基础设施需要行业前所未见规模的开放高效网络。"
通过将Spectrum-X以太网与FBOSS合并,Meta正在将开放可编程控制平面与AI优化的物理基础设施配对。结果是可预测、无拥塞的性能,同时保持Meta分解网络模型的灵活性。
甲骨文的千兆规模AI工厂
甲骨文云基础设施采用了互补方法——规模化。甲骨文正在使用Spectrum-X构建由即将推出的英伟达Vera Rubin架构驱动的千兆规模AI工厂。
甲骨文云基础设施执行副总裁Mahesh Thiagarajan说:"通过采用Spectrum-X以太网,我们可以以突破性效率互连数百万GPU。"
这表明甲骨文有意在AI计算领域与最大的超大规模厂商直接竞争,构建能够进行大规模训练任务的全球分布式AI工厂。Spectrum-X的跨规模能力(SpectrumXGS)允许甲骨文将多个数据中心的集群——甚至跨国家——连接成一个逻辑AI系统。这是一个没有物理边界的AI愿景。
深入了解:Spectrum-X的重要性
从我的角度来看,Spectrum-X架构的细节解释了为什么Meta和甲骨文都将其标准化:
集成硬件堆栈:Spectrum-X将Spectrum4以太网交换机(提供每秒51.2太比特的吞吐量)与BlueField-3超级网卡和DPU相结合,后者卸载和保护网络服务,让GPU能够纯粹专注于计算。
更高的网络性能:通过提供大约1.6倍更好的有效性能,Spectrum-X减少了GPU空闲时间——这对训练大型模型时的成本效率至关重要。
先进的遥测和路由:端到端可见性、自适应路由和拥塞控制动态调整数据包流,防止AI工作负载中常见的"象流"瓶颈。
高速RDMA和多租户:BlueField-3支持每秒400千兆位的融合以太网RDMA——实现更快的GPU到GPU通信和安全的多租户环境。
千兆规模扩展(SpectrumXGS):SpectrumXGS将网络扩展到单个数据中心之外,实现具有一致性能的多站点AI超级工厂——真正的分布式AI系统基础。
软件生态系统集成:Spectrum-X是英伟达全栈战略的一部分——与DOCA、Cumulus Linux、Pure SONiC、NetQ、AI Enterprise和AI Workbench集成,用于开发、部署和运营可见性。
结果是为AI提供了端到端网络解决方案,既提供高性能又提供运营简便性。如果有效部署,它可以降低总拥有成本,同时增加昂贵GPU资产的投资回报率。
网络成为AI工厂的新操作系统
正如我在AI工厂报道中所论述的,网络已悄然成为AI时代的实际操作系统。今天的AI应用比以往任何时候都更加数据饥渴,GPU的能力也大大增强——但只有当数据高效移动时,它们的潜力才能实现。网络现在既是推动者也是瓶颈。
行业共识正在围绕新现实形成:AI的性能前沿已从计算转向连接。网络发挥着操作系统曾经发挥的相同集成作用——跨云、边缘和数据中心编排、调度和同步分布式资源。
在这种新范式中,网络是AI工厂的控制平面——将计算、存储和数据绑定到一个智能系统中的连接组织。这也解释了为什么推理而不仅仅是训练正在推动架构演进。正如Shekar Ayyar和其他人指出的,推理发生在需要能够理解延迟、拥塞和工作负载局部性的AI感知网络的分布式环境中。
这种转变需要从核心数据中心延伸到边缘的自适应、可编程和可观察的网络结构。网络现在支撑着混合AI部署的可观察性、安全性和编排,确保模型和智能体能够在各种环境中可预测地运行。
简而言之,网络正在成为AI工厂的神经系统——编排计算、实现数据移动性,并将数据中心转变为活跃的分布式智能有机体。
我的观点:AI的工业化
英伟达、Meta和甲骨文共同发出的信号是,我们已经进入了AI基础设施的工业化阶段。
英伟达首席执行官黄仁勋说得最好:"万亿参数模型正在将数据中心转变为千兆规模的AI工厂...Spectrum-X是AI工厂的神经系统。"
Meta的集成展示了开放网络如何与AI加速相结合,而甲骨文的采用强调了大型AI工厂作为新超大规模的兴起。两者都指向一个世界,网络设计成为AI未来的战略杠杆——通往超级智能的道路由性能、成本和能源效率决定。
市场影响
Meta和甲骨文对Spectrum-X的采用验证了一个重大架构拐点:AI不再受计算和能源约束——现在受网络约束。
通过Spectrum-X,英伟达正在将以太网重新定义为AI以太网——一个完全仪表化、GPU感知、无拥塞的数据结构,能够跨地理扩展。这是将集群转变为连接的AI超级计算机和大规模AI工厂的缺失部分。
这一举措将英伟达置于新大规模计算堆栈的中心——从硅到系统再到全球AI网络。对于Meta和甲骨文等超大规模厂商来说,信息很明确:AI性能现在从网络开始。
正如我一年多来一直在说的:网络就是计算机——网络是AI工厂的操作系统。
Q&A
Q1:Spectrum-X是什么?它有什么特点?
A:Spectrum-X是英伟达公司专门为AI工作负载设计的以太网网络平台,能够将数百万个图形处理器连接成统一网络结构。它从底层设计就是为了处理大规模AI工作负载的通信模式,与传统以太网相比,AI通信的网络性能提高了1.6倍。
Q2:为什么Meta和甲骨文要采用Spectrum-X?
A:对于Meta来说,Spectrum-X能够与其开放网络架构FBOSS集成,提供可预测、无拥塞的性能。对于甲骨文来说,Spectrum-X能够帮助构建千兆规模AI工厂,将多个数据中心甚至跨国家的集群连接成一个逻辑AI系统,实现大规模AI训练任务。
Q3:网络在AI发展中起什么作用?
A:网络已经成为AI时代的实际操作系统,发挥着集成作用——跨云、边缘和数据中心编排、调度和同步分布式资源。AI的性能前沿已从计算转向连接,网络既是推动者也是瓶颈,是AI工厂的控制平面和神经系统。
好文章,需要你的鼓励
在迪拜Gitex 2025大会上,阿联酋成为全球AI领导者的雄心备受关注。微软正帮助该地区组织从AI实验阶段转向实际应用,通过三重方法提供AI助手、协同AI代理和AI战略顾问。微软已在阿联酋大举投资数据中心,去年培训了10万名政府员工,计划到2027年培训100万学习者。阿联酋任命了全球首位AI部长,各部门都配备了首席AI官。微软与政府机构和企业合作,在公民服务和金融流程等领域实现AI的实际应用,构建全面的AI生态系统。
浙江大学等高校研究团队开发的VolSplat系统,通过"体素对齐"替代传统"像素对齐"方法,实现了快速高质量的3D场景重建。该技术仅需6张普通照片即可生成精确3D模型,在RealEstate10K等标准数据集上显著超越现有方法,为机器人导航、增强现实、建筑设计等领域提供了新的技术选择,代表了3D重建领域从二维思维向三维思维的重要转变。
苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型,采用少步离散流匹配技术,仅需8轮快速优化即可生成完整长文本,效果媲美需要上千步骤的扩散模型。该模型通过三步训练法:处理不同优化预算、使用教师模型指导、调整迭代机制来实现突破。测试显示,参数量仅1.7亿至17亿的FS-DFM变体在困惑度和熵值指标上均优于70-80亿参数的大型扩散模型。
武汉大学团队与字节跳动公司合作,提出MAPO混合优势策略优化方法,解决AI训练中的"一刀切"问题。该方法能根据问题难度动态调整评分策略,避免传统方法中的优势反转和优势镜像问题。通过轨迹确定性判断和权重动态调整,在几何推理和情感识别任务上都取得显著提升,为AI自适应学习提供新思路。