英伟达Rubin CPX发布,AI工厂愿景逐步清晰

英伟达在InfraAI全球峰会上发布了Vera Rubin数据中心AI产品系列的新成员Rubin CPX。这款AI GPU推理加速器专为复杂AI任务优化,如百万行软件开发、长时间视频生成等。Rubin CPX配备128GB GDDR7内存,性能达30 petaFLOPs,相比GB300 NVL72在注意力加速方面提升3倍。英伟达计划将其集成到Vera Rubin NVL144 CPX机架中,可实现8 exaFLOPs性能,投资回报率达30-50倍。

在InfraAI全球峰会2025上,英伟达宣布推出即将发布的Vera Rubin数据中心AI产品家族的新成员。Rubin CPX将与标准的Rubin AI图形处理单元(GPU)互补,以更具成本效益的价格提供高价值的推理内容生成。更重要的是,它融入了英伟达为多AI GPU数据中心设计的基础设施。

Tirias Research曾为英伟达和本文提及的其他AI公司提供咨询服务。

Tirias Research长期以来一直预测,像AMD、英特尔、英伟达等开发AI半导体解决方案的公司需要各种AI推理加速器。就像任何其他数据中心工作负载一样,没有两个AI模型是相同的。随着消费者和企业采用AI,AI模型持续演进,将有机会围绕AI模型或模型组优化硬件。然而,GPU仍将是AI训练和AI推理处理的最佳解决方案之一,英伟达在Rubin CPX的发布中基于两个关键原因构建这一优势。

AI GPU的价值

第一个原因是半导体行业的特性。科技行业像钟摆一样摆动。当新技术引入时,会有一个快速创新期,或者在AI的情况下,是日常创新。当创新步伐放缓时,标准就会出现。此时,考虑将功能任务优化为专用芯片(即专用集成电路ASIC)是有意义的。在许多情况下,该功能最终可能被集成到主机处理器中,如中央处理单元(CPU)或GPU。然而,开发定制芯片或功能模块可能需要三年或更长时间。随着新模型和处理这些模型的方式快速变化,对于大多数AI应用来说,GPU比ASIC更实用。

第二个原因是GPU能够分区处理多个AI模型的并发能力。有一个误区认为从AI训练到AI推理的转换即将到来。随着OpenAI的ChatGPT模型、谷歌的Gemini、微软的Copilot、DeepSeek的R和V系列模型、Anthropic的Claude、Perplexity AI等无数模型的部署,整个行业绝大多数的AI处理已经是推理处理。如果存在这样的界限,几年前就已经跨越了。凭借AI GPU的可编程效率和支持GPU的数据中心建设,绝大多数AI工作负载,特别是生成式AI和智能体AI,都在GPU上运行,因为它们是最高效的选择。

英伟达的AI GPU建设

在GTC 2025上,英伟达推出了构建以AI为中心的数据中心的几项关键技术。这些包括NVL144机架设计、KV Cache、Dynamo、数据中心蓝图以及对公司NVLink、Spectrum-X和Quantum-X网络技术的增强。KV缓存允许存储计算的键值张量,用于后续AI生成和GPU之间的使用。Dynamo是一个开源推理框架,用于规划和路由数据中心的AI工作负载,本质上是数据中心工作负载编排器。NVL144机架设计和英伟达网络技术构成了数据中心的基础设施。在Omniverse上运行的数据中心蛋图为AI数据中心(英伟达称之为AI工厂)的设计、建设和运营提供数字孪生。现在,英伟达推出了Rubin CPX,这是一个优化用于出色执行特定功能的AI GPU推理加速器。通过Rubin CPX,英伟达在设计可针对特定AI功能优化的AI工厂方面又迈出了一步。

英伟达将Rubin CPX称为上下文推理加速器,专为非常复杂的AI任务而设计,如数百万行软件开发、数小时视频生成和深度研究。Rubin CPX与Vera CPU和Rubin AI GPU协同工作。Vera CPU和Rubin AI GPU摄取需要高计算性能的大量数据。然后,Rubin CPX接收上下文输入开始生成输出或内容。这个生成阶段更依赖于内存和网络带宽。因此,Rubin CPX虽然基于相同的Rubin AI GPU架构构建,但设计与Rubin AI GPU不同,配备128GB的GDDR7内存以及硬件编码和解码引擎来支持视频生成。Rubin CPX能够使用NVFP4数据格式实现30 petaFLOPs的性能,与GB300 NVL72相比注意力加速提升3倍,并能处理一百万Token的上下文窗口。内存和架构的变化导致整体性能下降约20 petaFLOPS,但上下文Token生成效率提高。

英伟达计划将Rubin CPX集成到与Vera CPU和Rubin AI GPU的单个机架中,称为Vera Rubin NVL144 CPX,并作为标准Vera Rubin NVL144机架的独立加速器机架提供。Vera Rubin NVL144 CPX机架将配置36个Vera CPU、144个Rubin AI GPU和144个Rubin CPX,具有100TB高速内存和1.7 PB/s内存带宽。结果是8 exaFLOPs的NVFP4性能,比GB300 NVL72机架提升7.5倍。据英伟达称,1亿美元的资本投资可能带来高达50亿美元的回报,投资回报率为30到50倍。双机架解决方案将提供相同性能和额外50TB内存。

更多期待

Rubin CPX是专注于高端生成应用的AI GPU推理加速器平台。我们可能会在未来看到英伟达AI GPU架构的其他版本,专注于AI处理的不同细分市场,如较小的AI模型。我们甚至可能看到针对更具体应用优化的各种CPX解决方案版本。AI不是单一的统一工作负载,优化加速器只是过程中的一步。更重要的是,英伟达继续将整个数据中心视为单一系统,确保解决所有潜在的性能瓶颈,从而实现最高的性能效率和投资回报率。

一个常见问题是行业是否需要新AI GPU的年度发布节奏。目前的答案是,它需要每年推出新的AI GPU,才能跟上AI创新的步伐。此外,还需要针对各种类型的AI工作负载优化的GPU。

Q&A

Q1:Rubin CPX是什么?有什么特殊功能?

A:Rubin CPX是英伟达推出的上下文推理加速器,专为非常复杂的AI任务而设计,如数百万行软件开发、数小时视频生成和深度研究。它配备128GB的GDDR7内存和硬件编码解码引擎,能够处理一百万Token的上下文窗口,与GB300 NVL72相比注意力加速提升3倍。

Q2:Rubin CPX如何与其他硬件协同工作?

A:Rubin CPX与Vera CPU和Rubin AI GPU协同工作。Vera CPU和Rubin AI GPU负责摄取需要高计算性能的大量数据,然后Rubin CPX接收上下文输入开始生成输出或内容。这种分工使得整个系统在处理复杂AI任务时更加高效。

Q3:英伟达AI工厂的投资回报率如何?

A:据英伟达称,1亿美元的资本投资可能带来高达50亿美元的回报,投资回报率为30到50倍。Vera Rubin NVL144 CPX机架配置36个Vera CPU、144个Rubin AI GPU和144个Rubin CPX,能实现8 exaFLOPs的NVFP4性能,比GB300 NVL72机架提升7.5倍。

来源:Forbes

0赞

好文章,需要你的鼓励

2025

09/22

07:42

分享

点赞

邮件订阅