IB和RoCE智算网络差异分析
InfiniBand 和RoCEv2 这两种网络架构在性能、成本、通用性等多个关键维度上展现出各自的优势,相互竞争。我们将细致分析这两种架构的技术特性、它们在 AI 智算网络中的应用场景,以及各自的优势和局限性。

在深入探究 AI 智算网络的领域时,我们发现市场中主要存在两大主流架构:InfiniBand 和RoCEv2。
这两种网络架构在性能、成本、通用性等多个关键维度上展现出各自的优势,相互竞争。我们将细致分析这两种架构的技术特性、它们在 AI 智算网络中的应用场景,以及各自的优势和局限性。
本文旨在评估InfiniBand 和 RoCEv2 在AI 智算网络中的潜在应用价值和未来的发展方向,以期为行业提供深刻的洞察和专业的指导。
InfiniBand 网络主要通过子网管理器(Subnet Manager,简称 SM)来进行集中管理,SM通常部署在一台接入子网的服务器上,充当网络的中枢控制器。子网中可能存在多个配置为SM 的设备,但仅有一个被指定为主 SM,负责通过管理数据报文(MAD)的内部下发和上传来管理所有交换机和网卡。每个网卡端口和交换芯片都通过由 SM 分配的唯一身份标识(Local ID,LID)进行识别,确保网络内设备的唯一性和准确性。SM 的核心职责包括维护网络的路由信息和计算更新交换芯片的路由表。网卡内部的 SM Agent(SMA)功能使得网卡能够独立处理 SM 下发的报文,无需所在服务器的干预,而提高了网络的自动化和效率。
InfiniBand 网络基于信用令牌(credit)机制,在每条链路都配备了一个预置缓冲区。发送端仅在确认接收端有足够的缓冲区后,才会启动数据发送,并且发送的数据量都不可超过接收端当前可用的预置缓冲区的最大容量。当接收端接收完报文,会释放缓冲区,并向发送端通报当前可用的预置缓冲区大小,从而维持了网络的流畅运行和数据传输的连续性。
1.2 InfiniBand 网络特点:链路级流控与自适应路由
InfiniBand 网络依靠链路级的流控机制,防止发送过量数据,从而避免了缓冲区溢出或是数据丢包的问题。同时 InfiniBand 网络的自适应路由技术可根据每个数据包的具体情况进行动态路由选择,在超大规模的网络环境中实现了网络资源的实时优化和最佳负载均衡利用。
RoCE(RDMA over Converged Ethernet)协议是一种能在以太网上进行 RDMA(Remote Direct Memory Access 远程内存直接访问)的集群网络通信协议。该协议有两个主要版本:RoCEv1 和RoCEv2。RoCEv1 作为链路层协议,要求通信双方位于同一二层网络内。而RoCEv2 则为网络层协议,它采用以太网网络层和 UDP 传输层,取代了 InfiniBand 的网络层,从而提供了更优的可扩展性。与 InfiniBand 网络的集中管理方式不同,RoCEv2 采用的是纯分布式架构,通常由两层构成,在扩展性和部署灵活性方面具有显著优势。
优先流控制(PFC)是一种逐跳流控策略,通过合理配置水位标记来充分利用交换机的缓存,以实现以太网络中的无丢包传输。当下游交换机端口的缓存过载时,该交换机就会向上游设备请求停止传输。已发送的数据则会存储在下游交换机的缓存中,等到缓存恢复正常,端口将会请求恢复数据包的发送,从而维持网络的流畅运行。
显式拥塞通知(ECN)定义了一种基于 IP 层和传输层的流量控制和端到端拥塞通知机制。通过在交换机上向服务器端传递特定拥塞信息,然后服务器端再发送至客户端通知源端降速从而实现拥塞控制的目的。
数据中心量化拥塞通知(DCQCN)是显式拥塞通知(ECN)和优先流控制(PFC)两种机制的结合,旨在支持端到端的无损以太网通信。其核心理念是在网络拥塞发生时,优先使用ECN 来通知发送端降低传输速率,防止 PFC 的不必要激活,同时也要避免拥塞严重导致缓冲区溢出的情况。通过这种精细的流量控制,DCQCN 能够在保持网络高效运行的同时,避免因拥塞造成的数据丢失。
2.2 RoCEv2 网络特点:强大兼容性与成本优化
RoCE 网络利用 RDMA 技术实现了高效的数据传输,不必占用远程服务器的 CPU 周期,从而充分利用带宽并增强了网络的可伸缩性。这种方法显著降低了网络延迟并提升了吞吐量,整体上提高了网络性能。RoCE 方案的另一个显著优势是它能够无缝地融入现有的以太网基础设施,这意味着企业无需额外投资于新设备或进行设备更换,就能实现性能的飞跃。这种成本效益高的网络升级方式对于降低企业的资本支出至关重要,使得 RoCE 成为提升智算中心网络性能的优选方案。
3 InfiniBand 与 RoCEv2 的技术差异
市场中对网络的多样化需求促成了 InfiniBand 和 RoCEv2 两种网络架构的共同发展。InfiniBand 网络凭借其高级技术,如高效的转发性能、快速的故障恢复时间和增强的扩展性,以及运维效率,在应用层业务性能上展现出显著优势,特别是在大规模场景下,能够提供卓越的网络吞吐性能。
而RoCEv2网络则以其强大的通用性和较低的成本受到青睐,不仅适用于构建高性能RDMA网络,还能无缝兼容现有的以太网基础设施,这使得 RoCEv2 在广泛性和适用性方面具有明显优势,能够满足不同规模和需求的网络应用。这两种架构各自的特性和优势,为 AI 智算中心的网络设计提供了丰富的选择,以满足不同用户的具体需求。
0赞好文章,需要你的鼓励
推荐文章
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。