虽然AMD等芯片厂商在GPU FLOPS、内存带宽和HBM容量方面正在缩小与Nvidia的差距,但如果没有像NVLink和NVSwitch这样的高速互连和交换技术,它们扩展性能的能力仍然受限。
这些技术使Nvidia能够构建拥有72个GPU的机架级系统,而Intel和AMD仍然局限于8个。为了克服这一限制,业界许多公司都支持新兴的超级加速器链路(UALink)协议,这是Nvidia NVLink的开放替代方案。
但并非所有人都认为需要新协议,或者愿意等待首批UALink硬件量产。作为UALink联盟的创始成员,Broadcom现在认为以太网完全有能力更快地完成这项工作。
"在网络的所有部分使用相同技术有巨大好处,"Broadcom Tomahawk产品线经理Pete Del Vecchio告诉El Reg。"使用以太网在监控、遥测和调试工具方面有很多优势。这就是为什么我们认为UALink不会有什么前景。"
Broadcom还未退出UALink会员。它仍在谈判桌上拥有发言权,Del Vecchio也不排除未来开发UALink交换机的可能性。但就目前而言,这不在路线图上,他说。
"我们的立场是,你不需要一些正在开发中的规范,也许几年后才会有芯片,"Del Vecchio说。
相反,Broadcom正在推进一项称为扩展以太网(SUE)的竞争技术。Broadcom声称,该技术将支持至少1,024个加速器的扩展系统,使用任何以太网平台。相比之下,Nvidia表示其NVLink交换技术可支持576个加速器,尽管迄今为止我们不知道有任何部署规模超过72个GPU插槽。
**Tomahawk Ultra**
Broadcom针对SUE的旗舰芯片是新发布的Tomahawk Ultra,这是一款51.2 Tbps交换ASIC,专门调优以在传统超级计算机和HPC集群中与Nvidia的InfiniBand竞争,以及在类似Nvidia GB200 NVL72或AMD Helios的机架级部署中与NVLink竞争。
需要说明的是,虽然Tomahawk Ultra与Broadcom的Tomahawk 5(TH5)共享相同封装且引脚兼容,但内部完全是不同的芯片。
除了拥有512 x 100 Gbps串行器解串器(SerDes)的相对较大基数外,该芯片组专门针对高性能网络进行了调优,据称能够提供低至250纳秒的延迟,同时每秒处理64字节数据包高达770亿次。
这很重要,因为这些较小的数据包在HPC系统中很常见,对于未配备处理随之而来的更高消息速率的网络设备来说可能会有问题。Tomahawk Ultra通过实现优化的以太网报头来解决这个问题,即使在处理较小数据包时也能实现更大的有效载荷。
该芯片还具有完整的拥塞控制机制,包括前向纠错和基于信用的流控制,以减少数据包丢失,同时保持与现有以太网网卡和DPU的兼容性。
该交换机还支持网络内收集,Nvidia在其NVLink交换机中称之为SHARP,允许将all-reduce等操作卸载到网络上,这有利于通过减少完成这些操作所需的带宽来提高网络效率。
在扩展交换架构方面,与Nvidia的第五代NVLink交换机相比,Tomahawk Ultra提供的带宽接近两倍,51.2 Tbps对比28.8 Tbps。这意味着使用与Nvidia 72-GPU NVL系统相同数量的交换机,Broadcom可以支持128个加速器的扩展架构。
与UALink相比,Del Vecchio声称Tomahawk Ultra已经提供了更好的延迟,尽管在首批硬件实际发货之前很难评估这一声称。
正如AMD架构与战略总监、UALink联盟主席Kutis Bowman最近告诉我们的兄弟网站The Next Platform,联盟预期交换延迟在100-150纳秒范围内,如果他们能够实现这一点,该协议在某些应用中可能会有优势。
话虽如此,我们必须等待看看Broadcom的最新芯片在现实世界中与NVLink以及最终与UALink的实际表现如何。值得庆幸的是,我们不需要等太久。Broadcom表示Tomahawk Ultra ASIC已经开始向客户发货,由于它们与TH5引脚兼容,重新利用现有交换机箱应该相对简单。
**两全其美?**
当然,仅仅因为UALink硬件尚未上市,并不意味着该协议对AMD或Intel来说遥不可及。今年4月,UALink联盟发布了首个规范,在6月的推进AI活动中,AMD展示了其Helios机架系统,该系统将同时使用UALink和以太网作为其扩展架构。
没错——对于其首批机架级系统,AMD将通过传统以太网交换机隧道传输UALink协议,这意味着AMD将开始解决v1.0规范中的任何潜在问题,而其网络合作伙伴仍在将首批UALink芯片推向市场。
"其他传输协议,如UALink或Infinity Fabric,可以通过以太网传输。如果你已经有了能够实现低延迟、高可靠性的芯片,无论你想要什么,只需通过以太网来做,"Broadcom首席产品线经理Robin Grindley告诉我们。
然而,通过以太网隧道传输UALink并不理想。最明显的是,你无法接近UALink的100-150纳秒目标。另一方面,你不能交付你没有的东西,如果AMD等到2027年才将其Helios机架推向市场,它就必须与Nvidia的600千瓦、144-GPU插槽Kyber系统竞争。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。