虽然AMD等芯片厂商在GPU FLOPS、内存带宽和HBM容量方面正在缩小与Nvidia的差距,但如果没有像NVLink和NVSwitch这样的高速互连和交换技术,它们扩展性能的能力仍然受限。
这些技术使Nvidia能够构建拥有72个GPU的机架级系统,而Intel和AMD仍然局限于8个。为了克服这一限制,业界许多公司都支持新兴的超级加速器链路(UALink)协议,这是Nvidia NVLink的开放替代方案。
但并非所有人都认为需要新协议,或者愿意等待首批UALink硬件量产。作为UALink联盟的创始成员,Broadcom现在认为以太网完全有能力更快地完成这项工作。
"在网络的所有部分使用相同技术有巨大好处,"Broadcom Tomahawk产品线经理Pete Del Vecchio告诉El Reg。"使用以太网在监控、遥测和调试工具方面有很多优势。这就是为什么我们认为UALink不会有什么前景。"
Broadcom还未退出UALink会员。它仍在谈判桌上拥有发言权,Del Vecchio也不排除未来开发UALink交换机的可能性。但就目前而言,这不在路线图上,他说。
"我们的立场是,你不需要一些正在开发中的规范,也许几年后才会有芯片,"Del Vecchio说。
相反,Broadcom正在推进一项称为扩展以太网(SUE)的竞争技术。Broadcom声称,该技术将支持至少1,024个加速器的扩展系统,使用任何以太网平台。相比之下,Nvidia表示其NVLink交换技术可支持576个加速器,尽管迄今为止我们不知道有任何部署规模超过72个GPU插槽。
**Tomahawk Ultra**
Broadcom针对SUE的旗舰芯片是新发布的Tomahawk Ultra,这是一款51.2 Tbps交换ASIC,专门调优以在传统超级计算机和HPC集群中与Nvidia的InfiniBand竞争,以及在类似Nvidia GB200 NVL72或AMD Helios的机架级部署中与NVLink竞争。
需要说明的是,虽然Tomahawk Ultra与Broadcom的Tomahawk 5(TH5)共享相同封装且引脚兼容,但内部完全是不同的芯片。
除了拥有512 x 100 Gbps串行器解串器(SerDes)的相对较大基数外,该芯片组专门针对高性能网络进行了调优,据称能够提供低至250纳秒的延迟,同时每秒处理64字节数据包高达770亿次。
这很重要,因为这些较小的数据包在HPC系统中很常见,对于未配备处理随之而来的更高消息速率的网络设备来说可能会有问题。Tomahawk Ultra通过实现优化的以太网报头来解决这个问题,即使在处理较小数据包时也能实现更大的有效载荷。
该芯片还具有完整的拥塞控制机制,包括前向纠错和基于信用的流控制,以减少数据包丢失,同时保持与现有以太网网卡和DPU的兼容性。
该交换机还支持网络内收集,Nvidia在其NVLink交换机中称之为SHARP,允许将all-reduce等操作卸载到网络上,这有利于通过减少完成这些操作所需的带宽来提高网络效率。
在扩展交换架构方面,与Nvidia的第五代NVLink交换机相比,Tomahawk Ultra提供的带宽接近两倍,51.2 Tbps对比28.8 Tbps。这意味着使用与Nvidia 72-GPU NVL系统相同数量的交换机,Broadcom可以支持128个加速器的扩展架构。
与UALink相比,Del Vecchio声称Tomahawk Ultra已经提供了更好的延迟,尽管在首批硬件实际发货之前很难评估这一声称。
正如AMD架构与战略总监、UALink联盟主席Kutis Bowman最近告诉我们的兄弟网站The Next Platform,联盟预期交换延迟在100-150纳秒范围内,如果他们能够实现这一点,该协议在某些应用中可能会有优势。
话虽如此,我们必须等待看看Broadcom的最新芯片在现实世界中与NVLink以及最终与UALink的实际表现如何。值得庆幸的是,我们不需要等太久。Broadcom表示Tomahawk Ultra ASIC已经开始向客户发货,由于它们与TH5引脚兼容,重新利用现有交换机箱应该相对简单。
**两全其美?**
当然,仅仅因为UALink硬件尚未上市,并不意味着该协议对AMD或Intel来说遥不可及。今年4月,UALink联盟发布了首个规范,在6月的推进AI活动中,AMD展示了其Helios机架系统,该系统将同时使用UALink和以太网作为其扩展架构。
没错——对于其首批机架级系统,AMD将通过传统以太网交换机隧道传输UALink协议,这意味着AMD将开始解决v1.0规范中的任何潜在问题,而其网络合作伙伴仍在将首批UALink芯片推向市场。
"其他传输协议,如UALink或Infinity Fabric,可以通过以太网传输。如果你已经有了能够实现低延迟、高可靠性的芯片,无论你想要什么,只需通过以太网来做,"Broadcom首席产品线经理Robin Grindley告诉我们。
然而,通过以太网隧道传输UALink并不理想。最明显的是,你无法接近UALink的100-150纳秒目标。另一方面,你不能交付你没有的东西,如果AMD等到2027年才将其Helios机架推向市场,它就必须与Nvidia的600千瓦、144-GPU插槽Kyber系统竞争。
好文章,需要你的鼓励
苹果在iOS 26公开发布两周后推出首个修复更新iOS 26.0.1,建议所有用户安装。由于重大版本发布通常伴随漏洞,许多用户此前选择安装iOS 18.7。尽管iOS 26经过数月测试,但更大用户基数能发现更多问题。新版本与iPhone 17等新机型同期发布,测试范围此前受限。预计苹果将继续发布后续修复版本。
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
据报道,OpenAI正准备发布一款由即将推出的Sora 2视频模型驱动的独立社交应用。该应用与TikTok高度相似,采用垂直视频信息流和滑动滚动导航。不过,该应用仅支持AI生成的内容,用户无法从手机相册上传照片或视频。Sora 2在应用内生成的视频时长限制为10秒或更短。应用还包含身份验证工具,允许用户使用自己的肖像生成视频,其他用户可以标记并在重新混合视频时使用他们的肖像。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。