虽然AMD等芯片厂商在GPU FLOPS、内存带宽和HBM容量方面正在缩小与Nvidia的差距,但如果没有像NVLink和NVSwitch这样的高速互连和交换技术,它们扩展性能的能力仍然受限。
这些技术使Nvidia能够构建拥有72个GPU的机架级系统,而Intel和AMD仍然局限于8个。为了克服这一限制,业界许多公司都支持新兴的超级加速器链路(UALink)协议,这是Nvidia NVLink的开放替代方案。
但并非所有人都认为需要新协议,或者愿意等待首批UALink硬件量产。作为UALink联盟的创始成员,Broadcom现在认为以太网完全有能力更快地完成这项工作。
"在网络的所有部分使用相同技术有巨大好处,"Broadcom Tomahawk产品线经理Pete Del Vecchio告诉El Reg。"使用以太网在监控、遥测和调试工具方面有很多优势。这就是为什么我们认为UALink不会有什么前景。"
Broadcom还未退出UALink会员。它仍在谈判桌上拥有发言权,Del Vecchio也不排除未来开发UALink交换机的可能性。但就目前而言,这不在路线图上,他说。
"我们的立场是,你不需要一些正在开发中的规范,也许几年后才会有芯片,"Del Vecchio说。
相反,Broadcom正在推进一项称为扩展以太网(SUE)的竞争技术。Broadcom声称,该技术将支持至少1,024个加速器的扩展系统,使用任何以太网平台。相比之下,Nvidia表示其NVLink交换技术可支持576个加速器,尽管迄今为止我们不知道有任何部署规模超过72个GPU插槽。
**Tomahawk Ultra**
Broadcom针对SUE的旗舰芯片是新发布的Tomahawk Ultra,这是一款51.2 Tbps交换ASIC,专门调优以在传统超级计算机和HPC集群中与Nvidia的InfiniBand竞争,以及在类似Nvidia GB200 NVL72或AMD Helios的机架级部署中与NVLink竞争。
需要说明的是,虽然Tomahawk Ultra与Broadcom的Tomahawk 5(TH5)共享相同封装且引脚兼容,但内部完全是不同的芯片。
除了拥有512 x 100 Gbps串行器解串器(SerDes)的相对较大基数外,该芯片组专门针对高性能网络进行了调优,据称能够提供低至250纳秒的延迟,同时每秒处理64字节数据包高达770亿次。
这很重要,因为这些较小的数据包在HPC系统中很常见,对于未配备处理随之而来的更高消息速率的网络设备来说可能会有问题。Tomahawk Ultra通过实现优化的以太网报头来解决这个问题,即使在处理较小数据包时也能实现更大的有效载荷。
该芯片还具有完整的拥塞控制机制,包括前向纠错和基于信用的流控制,以减少数据包丢失,同时保持与现有以太网网卡和DPU的兼容性。
该交换机还支持网络内收集,Nvidia在其NVLink交换机中称之为SHARP,允许将all-reduce等操作卸载到网络上,这有利于通过减少完成这些操作所需的带宽来提高网络效率。
在扩展交换架构方面,与Nvidia的第五代NVLink交换机相比,Tomahawk Ultra提供的带宽接近两倍,51.2 Tbps对比28.8 Tbps。这意味着使用与Nvidia 72-GPU NVL系统相同数量的交换机,Broadcom可以支持128个加速器的扩展架构。
与UALink相比,Del Vecchio声称Tomahawk Ultra已经提供了更好的延迟,尽管在首批硬件实际发货之前很难评估这一声称。
正如AMD架构与战略总监、UALink联盟主席Kutis Bowman最近告诉我们的兄弟网站The Next Platform,联盟预期交换延迟在100-150纳秒范围内,如果他们能够实现这一点,该协议在某些应用中可能会有优势。
话虽如此,我们必须等待看看Broadcom的最新芯片在现实世界中与NVLink以及最终与UALink的实际表现如何。值得庆幸的是,我们不需要等太久。Broadcom表示Tomahawk Ultra ASIC已经开始向客户发货,由于它们与TH5引脚兼容,重新利用现有交换机箱应该相对简单。
**两全其美?**
当然,仅仅因为UALink硬件尚未上市,并不意味着该协议对AMD或Intel来说遥不可及。今年4月,UALink联盟发布了首个规范,在6月的推进AI活动中,AMD展示了其Helios机架系统,该系统将同时使用UALink和以太网作为其扩展架构。
没错——对于其首批机架级系统,AMD将通过传统以太网交换机隧道传输UALink协议,这意味着AMD将开始解决v1.0规范中的任何潜在问题,而其网络合作伙伴仍在将首批UALink芯片推向市场。
"其他传输协议,如UALink或Infinity Fabric,可以通过以太网传输。如果你已经有了能够实现低延迟、高可靠性的芯片,无论你想要什么,只需通过以太网来做,"Broadcom首席产品线经理Robin Grindley告诉我们。
然而,通过以太网隧道传输UALink并不理想。最明显的是,你无法接近UALink的100-150纳秒目标。另一方面,你不能交付你没有的东西,如果AMD等到2027年才将其Helios机架推向市场,它就必须与Nvidia的600千瓦、144-GPU插槽Kyber系统竞争。
好文章,需要你的鼓励
麻省理工学院研究团队发现大语言模型"幻觉"现象的新根源:注意力机制存在固有缺陷。研究通过理论分析和实验证明,即使在理想条件下,注意力机制在处理多步推理任务时也会出现系统性错误。这一发现挑战了仅通过扩大模型规模就能解决所有问题的观点,为未来AI架构发展指明新方向,提醒用户在复杂推理任务中谨慎使用AI工具。
继苹果和其他厂商之后,Google正在加大力度推广其在智能手机上的人工智能功能。该公司试图通过展示AI在移动设备上的实用性和创新性来吸引消费者关注,希望说服用户相信手机AI功能的价值。Google面临的挑战是如何让消费者真正体验到AI带来的便利,并将这些技术优势转化为市场竞争力。
中科院自动化所等机构联合发布MM-RLHF研究,构建了史上最大的多模态AI对齐数据集,包含12万个精细人工标注样本。研究提出批评式奖励模型和动态奖励缩放算法,显著提升多模态AI的安全性和对话能力,为构建真正符合人类价值观的AI系统提供了突破性解决方案。