IB和RoCE智算网络差异分析
InfiniBand 和RoCEv2 这两种网络架构在性能、成本、通用性等多个关键维度上展现出各自的优势,相互竞争。我们将细致分析这两种架构的技术特性、它们在 AI 智算网络中的应用场景,以及各自的优势和局限性。

在深入探究 AI 智算网络的领域时,我们发现市场中主要存在两大主流架构:InfiniBand 和RoCEv2。
这两种网络架构在性能、成本、通用性等多个关键维度上展现出各自的优势,相互竞争。我们将细致分析这两种架构的技术特性、它们在 AI 智算网络中的应用场景,以及各自的优势和局限性。
本文旨在评估InfiniBand 和 RoCEv2 在AI 智算网络中的潜在应用价值和未来的发展方向,以期为行业提供深刻的洞察和专业的指导。
InfiniBand 网络主要通过子网管理器(Subnet Manager,简称 SM)来进行集中管理,SM通常部署在一台接入子网的服务器上,充当网络的中枢控制器。子网中可能存在多个配置为SM 的设备,但仅有一个被指定为主 SM,负责通过管理数据报文(MAD)的内部下发和上传来管理所有交换机和网卡。每个网卡端口和交换芯片都通过由 SM 分配的唯一身份标识(Local ID,LID)进行识别,确保网络内设备的唯一性和准确性。SM 的核心职责包括维护网络的路由信息和计算更新交换芯片的路由表。网卡内部的 SM Agent(SMA)功能使得网卡能够独立处理 SM 下发的报文,无需所在服务器的干预,而提高了网络的自动化和效率。
InfiniBand 网络基于信用令牌(credit)机制,在每条链路都配备了一个预置缓冲区。发送端仅在确认接收端有足够的缓冲区后,才会启动数据发送,并且发送的数据量都不可超过接收端当前可用的预置缓冲区的最大容量。当接收端接收完报文,会释放缓冲区,并向发送端通报当前可用的预置缓冲区大小,从而维持了网络的流畅运行和数据传输的连续性。
1.2 InfiniBand 网络特点:链路级流控与自适应路由
InfiniBand 网络依靠链路级的流控机制,防止发送过量数据,从而避免了缓冲区溢出或是数据丢包的问题。同时 InfiniBand 网络的自适应路由技术可根据每个数据包的具体情况进行动态路由选择,在超大规模的网络环境中实现了网络资源的实时优化和最佳负载均衡利用。
RoCE(RDMA over Converged Ethernet)协议是一种能在以太网上进行 RDMA(Remote Direct Memory Access 远程内存直接访问)的集群网络通信协议。该协议有两个主要版本:RoCEv1 和RoCEv2。RoCEv1 作为链路层协议,要求通信双方位于同一二层网络内。而RoCEv2 则为网络层协议,它采用以太网网络层和 UDP 传输层,取代了 InfiniBand 的网络层,从而提供了更优的可扩展性。与 InfiniBand 网络的集中管理方式不同,RoCEv2 采用的是纯分布式架构,通常由两层构成,在扩展性和部署灵活性方面具有显著优势。
优先流控制(PFC)是一种逐跳流控策略,通过合理配置水位标记来充分利用交换机的缓存,以实现以太网络中的无丢包传输。当下游交换机端口的缓存过载时,该交换机就会向上游设备请求停止传输。已发送的数据则会存储在下游交换机的缓存中,等到缓存恢复正常,端口将会请求恢复数据包的发送,从而维持网络的流畅运行。
显式拥塞通知(ECN)定义了一种基于 IP 层和传输层的流量控制和端到端拥塞通知机制。通过在交换机上向服务器端传递特定拥塞信息,然后服务器端再发送至客户端通知源端降速从而实现拥塞控制的目的。
数据中心量化拥塞通知(DCQCN)是显式拥塞通知(ECN)和优先流控制(PFC)两种机制的结合,旨在支持端到端的无损以太网通信。其核心理念是在网络拥塞发生时,优先使用ECN 来通知发送端降低传输速率,防止 PFC 的不必要激活,同时也要避免拥塞严重导致缓冲区溢出的情况。通过这种精细的流量控制,DCQCN 能够在保持网络高效运行的同时,避免因拥塞造成的数据丢失。
2.2 RoCEv2 网络特点:强大兼容性与成本优化
RoCE 网络利用 RDMA 技术实现了高效的数据传输,不必占用远程服务器的 CPU 周期,从而充分利用带宽并增强了网络的可伸缩性。这种方法显著降低了网络延迟并提升了吞吐量,整体上提高了网络性能。RoCE 方案的另一个显著优势是它能够无缝地融入现有的以太网基础设施,这意味着企业无需额外投资于新设备或进行设备更换,就能实现性能的飞跃。这种成本效益高的网络升级方式对于降低企业的资本支出至关重要,使得 RoCE 成为提升智算中心网络性能的优选方案。
3 InfiniBand 与 RoCEv2 的技术差异
市场中对网络的多样化需求促成了 InfiniBand 和 RoCEv2 两种网络架构的共同发展。InfiniBand 网络凭借其高级技术,如高效的转发性能、快速的故障恢复时间和增强的扩展性,以及运维效率,在应用层业务性能上展现出显著优势,特别是在大规模场景下,能够提供卓越的网络吞吐性能。
而RoCEv2网络则以其强大的通用性和较低的成本受到青睐,不仅适用于构建高性能RDMA网络,还能无缝兼容现有的以太网基础设施,这使得 RoCEv2 在广泛性和适用性方面具有明显优势,能够满足不同规模和需求的网络应用。这两种架构各自的特性和优势,为 AI 智算中心的网络设计提供了丰富的选择,以满足不同用户的具体需求。
0赞好文章,需要你的鼓励
推荐文章
本文探讨如何使用生成式AI和大语言模型作为倾听者,帮助用户表达内心想法。许多主流AI如ChatGPT、Claude等被设计成用户的"最佳伙伴",或试图提供心理健康建议,但有时用户只想要一个尊重的倾听者。文章提供了有效的提示词技巧,指导AI保持中性、尊重的态度,专注于倾听和理解,而非给出建议或判断。同时提醒用户注意隐私保护和AI的局限性。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
人工通用智能和超级人工智能的出现,可能会创造出一种全新的外星智能形态。传统AI基于人类智能模式构建,但AGI和ASI一旦存在,可能会选择创造完全不同于人类认知方式的新型智能。这种外星人工智能既可能带来突破性进展,如找到癌症治愈方法,也可能存在未知风险。目前尚不确定这种新智能形态是否会超越人类智能,以及我们是否应该追求这一可能改变人类命运的技术突破。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。