虽然AMD等芯片厂商在GPU FLOPS、内存带宽和HBM容量方面正在缩小与Nvidia的差距,但如果没有像NVLink和NVSwitch这样的高速互连和交换技术,它们扩展性能的能力仍然受限。
这些技术使Nvidia能够构建拥有72个GPU的机架级系统,而Intel和AMD仍然局限于8个。为了克服这一限制,业界许多公司都支持新兴的超级加速器链路(UALink)协议,这是Nvidia NVLink的开放替代方案。
但并非所有人都认为需要新协议,或者愿意等待首批UALink硬件量产。作为UALink联盟的创始成员,Broadcom现在认为以太网完全有能力更快地完成这项工作。
"在网络的所有部分使用相同技术有巨大好处,"Broadcom Tomahawk产品线经理Pete Del Vecchio告诉El Reg。"使用以太网在监控、遥测和调试工具方面有很多优势。这就是为什么我们认为UALink不会有什么前景。"
Broadcom还未退出UALink会员。它仍在谈判桌上拥有发言权,Del Vecchio也不排除未来开发UALink交换机的可能性。但就目前而言,这不在路线图上,他说。
"我们的立场是,你不需要一些正在开发中的规范,也许几年后才会有芯片,"Del Vecchio说。
相反,Broadcom正在推进一项称为扩展以太网(SUE)的竞争技术。Broadcom声称,该技术将支持至少1,024个加速器的扩展系统,使用任何以太网平台。相比之下,Nvidia表示其NVLink交换技术可支持576个加速器,尽管迄今为止我们不知道有任何部署规模超过72个GPU插槽。
**Tomahawk Ultra**
Broadcom针对SUE的旗舰芯片是新发布的Tomahawk Ultra,这是一款51.2 Tbps交换ASIC,专门调优以在传统超级计算机和HPC集群中与Nvidia的InfiniBand竞争,以及在类似Nvidia GB200 NVL72或AMD Helios的机架级部署中与NVLink竞争。
需要说明的是,虽然Tomahawk Ultra与Broadcom的Tomahawk 5(TH5)共享相同封装且引脚兼容,但内部完全是不同的芯片。
除了拥有512 x 100 Gbps串行器解串器(SerDes)的相对较大基数外,该芯片组专门针对高性能网络进行了调优,据称能够提供低至250纳秒的延迟,同时每秒处理64字节数据包高达770亿次。
这很重要,因为这些较小的数据包在HPC系统中很常见,对于未配备处理随之而来的更高消息速率的网络设备来说可能会有问题。Tomahawk Ultra通过实现优化的以太网报头来解决这个问题,即使在处理较小数据包时也能实现更大的有效载荷。
该芯片还具有完整的拥塞控制机制,包括前向纠错和基于信用的流控制,以减少数据包丢失,同时保持与现有以太网网卡和DPU的兼容性。
该交换机还支持网络内收集,Nvidia在其NVLink交换机中称之为SHARP,允许将all-reduce等操作卸载到网络上,这有利于通过减少完成这些操作所需的带宽来提高网络效率。
在扩展交换架构方面,与Nvidia的第五代NVLink交换机相比,Tomahawk Ultra提供的带宽接近两倍,51.2 Tbps对比28.8 Tbps。这意味着使用与Nvidia 72-GPU NVL系统相同数量的交换机,Broadcom可以支持128个加速器的扩展架构。
与UALink相比,Del Vecchio声称Tomahawk Ultra已经提供了更好的延迟,尽管在首批硬件实际发货之前很难评估这一声称。
正如AMD架构与战略总监、UALink联盟主席Kutis Bowman最近告诉我们的兄弟网站The Next Platform,联盟预期交换延迟在100-150纳秒范围内,如果他们能够实现这一点,该协议在某些应用中可能会有优势。
话虽如此,我们必须等待看看Broadcom的最新芯片在现实世界中与NVLink以及最终与UALink的实际表现如何。值得庆幸的是,我们不需要等太久。Broadcom表示Tomahawk Ultra ASIC已经开始向客户发货,由于它们与TH5引脚兼容,重新利用现有交换机箱应该相对简单。
**两全其美?**
当然,仅仅因为UALink硬件尚未上市,并不意味着该协议对AMD或Intel来说遥不可及。今年4月,UALink联盟发布了首个规范,在6月的推进AI活动中,AMD展示了其Helios机架系统,该系统将同时使用UALink和以太网作为其扩展架构。
没错——对于其首批机架级系统,AMD将通过传统以太网交换机隧道传输UALink协议,这意味着AMD将开始解决v1.0规范中的任何潜在问题,而其网络合作伙伴仍在将首批UALink芯片推向市场。
"其他传输协议,如UALink或Infinity Fabric,可以通过以太网传输。如果你已经有了能够实现低延迟、高可靠性的芯片,无论你想要什么,只需通过以太网来做,"Broadcom首席产品线经理Robin Grindley告诉我们。
然而,通过以太网隧道传输UALink并不理想。最明显的是,你无法接近UALink的100-150纳秒目标。另一方面,你不能交付你没有的东西,如果AMD等到2027年才将其Helios机架推向市场,它就必须与Nvidia的600千瓦、144-GPU插槽Kyber系统竞争。
好文章,需要你的鼓励
法国人工智能公司Mistral AI宣布完成17亿欧元(约20亿美元)C轮融资,由荷兰半导体设备制造商ASML领投。此轮融资使Mistral估值从去年的60亿美元翻倍至137亿美元。英伟达、DST Global等知名投资机构参投。作为欧洲领先的AI开发商,Mistral凭借先进的多语言大模型与OpenAI等美国公司竞争,其聊天机器人Le Chat具备语音模式等功能。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
VAST Data收购了成立仅数月的初创公司Red Stapler,该公司由NetApp资深团队创立。Red Stapler创始人兼CEO Jonsi Stefansson将担任VAST云解决方案总经理,负责超大规模云战略。Red Stapler拥有6名开发人员,开发了跨SaaS交付、API集成、监控等功能的云控制平面和服务交付平台,将加速VAST AI OS在超大规模和多云环境中的部署,深化与全球领先超大规模云服务商的合作关系。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。