虽然AMD等芯片厂商在GPU FLOPS、内存带宽和HBM容量方面正在缩小与Nvidia的差距,但如果没有像NVLink和NVSwitch这样的高速互连和交换技术,它们扩展性能的能力仍然受限。
这些技术使Nvidia能够构建拥有72个GPU的机架级系统,而Intel和AMD仍然局限于8个。为了克服这一限制,业界许多公司都支持新兴的超级加速器链路(UALink)协议,这是Nvidia NVLink的开放替代方案。
但并非所有人都认为需要新协议,或者愿意等待首批UALink硬件量产。作为UALink联盟的创始成员,Broadcom现在认为以太网完全有能力更快地完成这项工作。
"在网络的所有部分使用相同技术有巨大好处,"Broadcom Tomahawk产品线经理Pete Del Vecchio告诉El Reg。"使用以太网在监控、遥测和调试工具方面有很多优势。这就是为什么我们认为UALink不会有什么前景。"
Broadcom还未退出UALink会员。它仍在谈判桌上拥有发言权,Del Vecchio也不排除未来开发UALink交换机的可能性。但就目前而言,这不在路线图上,他说。
"我们的立场是,你不需要一些正在开发中的规范,也许几年后才会有芯片,"Del Vecchio说。
相反,Broadcom正在推进一项称为扩展以太网(SUE)的竞争技术。Broadcom声称,该技术将支持至少1,024个加速器的扩展系统,使用任何以太网平台。相比之下,Nvidia表示其NVLink交换技术可支持576个加速器,尽管迄今为止我们不知道有任何部署规模超过72个GPU插槽。
**Tomahawk Ultra**
Broadcom针对SUE的旗舰芯片是新发布的Tomahawk Ultra,这是一款51.2 Tbps交换ASIC,专门调优以在传统超级计算机和HPC集群中与Nvidia的InfiniBand竞争,以及在类似Nvidia GB200 NVL72或AMD Helios的机架级部署中与NVLink竞争。
需要说明的是,虽然Tomahawk Ultra与Broadcom的Tomahawk 5(TH5)共享相同封装且引脚兼容,但内部完全是不同的芯片。
除了拥有512 x 100 Gbps串行器解串器(SerDes)的相对较大基数外,该芯片组专门针对高性能网络进行了调优,据称能够提供低至250纳秒的延迟,同时每秒处理64字节数据包高达770亿次。
这很重要,因为这些较小的数据包在HPC系统中很常见,对于未配备处理随之而来的更高消息速率的网络设备来说可能会有问题。Tomahawk Ultra通过实现优化的以太网报头来解决这个问题,即使在处理较小数据包时也能实现更大的有效载荷。
该芯片还具有完整的拥塞控制机制,包括前向纠错和基于信用的流控制,以减少数据包丢失,同时保持与现有以太网网卡和DPU的兼容性。
该交换机还支持网络内收集,Nvidia在其NVLink交换机中称之为SHARP,允许将all-reduce等操作卸载到网络上,这有利于通过减少完成这些操作所需的带宽来提高网络效率。
在扩展交换架构方面,与Nvidia的第五代NVLink交换机相比,Tomahawk Ultra提供的带宽接近两倍,51.2 Tbps对比28.8 Tbps。这意味着使用与Nvidia 72-GPU NVL系统相同数量的交换机,Broadcom可以支持128个加速器的扩展架构。
与UALink相比,Del Vecchio声称Tomahawk Ultra已经提供了更好的延迟,尽管在首批硬件实际发货之前很难评估这一声称。
正如AMD架构与战略总监、UALink联盟主席Kutis Bowman最近告诉我们的兄弟网站The Next Platform,联盟预期交换延迟在100-150纳秒范围内,如果他们能够实现这一点,该协议在某些应用中可能会有优势。
话虽如此,我们必须等待看看Broadcom的最新芯片在现实世界中与NVLink以及最终与UALink的实际表现如何。值得庆幸的是,我们不需要等太久。Broadcom表示Tomahawk Ultra ASIC已经开始向客户发货,由于它们与TH5引脚兼容,重新利用现有交换机箱应该相对简单。
**两全其美?**
当然,仅仅因为UALink硬件尚未上市,并不意味着该协议对AMD或Intel来说遥不可及。今年4月,UALink联盟发布了首个规范,在6月的推进AI活动中,AMD展示了其Helios机架系统,该系统将同时使用UALink和以太网作为其扩展架构。
没错——对于其首批机架级系统,AMD将通过传统以太网交换机隧道传输UALink协议,这意味着AMD将开始解决v1.0规范中的任何潜在问题,而其网络合作伙伴仍在将首批UALink芯片推向市场。
"其他传输协议,如UALink或Infinity Fabric,可以通过以太网传输。如果你已经有了能够实现低延迟、高可靠性的芯片,无论你想要什么,只需通过以太网来做,"Broadcom首席产品线经理Robin Grindley告诉我们。
然而,通过以太网隧道传输UALink并不理想。最明显的是,你无法接近UALink的100-150纳秒目标。另一方面,你不能交付你没有的东西,如果AMD等到2027年才将其Helios机架推向市场,它就必须与Nvidia的600千瓦、144-GPU插槽Kyber系统竞争。
好文章,需要你的鼓励
本文探讨如何使用生成式AI和大语言模型作为倾听者,帮助用户表达内心想法。许多主流AI如ChatGPT、Claude等被设计成用户的"最佳伙伴",或试图提供心理健康建议,但有时用户只想要一个尊重的倾听者。文章提供了有效的提示词技巧,指导AI保持中性、尊重的态度,专注于倾听和理解,而非给出建议或判断。同时提醒用户注意隐私保护和AI的局限性。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
人工通用智能和超级人工智能的出现,可能会创造出一种全新的外星智能形态。传统AI基于人类智能模式构建,但AGI和ASI一旦存在,可能会选择创造完全不同于人类认知方式的新型智能。这种外星人工智能既可能带来突破性进展,如找到癌症治愈方法,也可能存在未知风险。目前尚不确定这种新智能形态是否会超越人类智能,以及我们是否应该追求这一可能改变人类命运的技术突破。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。