在InfraAI全球峰会2025上,英伟达宣布推出即将发布的Vera Rubin数据中心AI产品家族的新成员。Rubin CPX将与标准的Rubin AI图形处理单元(GPU)互补,以更具成本效益的价格提供高价值的推理内容生成。更重要的是,它融入了英伟达为多AI GPU数据中心设计的基础设施。
Tirias Research曾为英伟达和本文提及的其他AI公司提供咨询服务。
Tirias Research长期以来一直预测,像AMD、英特尔、英伟达等开发AI半导体解决方案的公司需要各种AI推理加速器。就像任何其他数据中心工作负载一样,没有两个AI模型是相同的。随着消费者和企业采用AI,AI模型持续演进,将有机会围绕AI模型或模型组优化硬件。然而,GPU仍将是AI训练和AI推理处理的最佳解决方案之一,英伟达在Rubin CPX的发布中基于两个关键原因构建这一优势。
AI GPU的价值
第一个原因是半导体行业的特性。科技行业像钟摆一样摆动。当新技术引入时,会有一个快速创新期,或者在AI的情况下,是日常创新。当创新步伐放缓时,标准就会出现。此时,考虑将功能任务优化为专用芯片(即专用集成电路ASIC)是有意义的。在许多情况下,该功能最终可能被集成到主机处理器中,如中央处理单元(CPU)或GPU。然而,开发定制芯片或功能模块可能需要三年或更长时间。随着新模型和处理这些模型的方式快速变化,对于大多数AI应用来说,GPU比ASIC更实用。
第二个原因是GPU能够分区处理多个AI模型的并发能力。有一个误区认为从AI训练到AI推理的转换即将到来。随着OpenAI的ChatGPT模型、谷歌的Gemini、微软的Copilot、DeepSeek的R和V系列模型、Anthropic的Claude、Perplexity AI等无数模型的部署,整个行业绝大多数的AI处理已经是推理处理。如果存在这样的界限,几年前就已经跨越了。凭借AI GPU的可编程效率和支持GPU的数据中心建设,绝大多数AI工作负载,特别是生成式AI和智能体AI,都在GPU上运行,因为它们是最高效的选择。
英伟达的AI GPU建设
在GTC 2025上,英伟达推出了构建以AI为中心的数据中心的几项关键技术。这些包括NVL144机架设计、KV Cache、Dynamo、数据中心蓝图以及对公司NVLink、Spectrum-X和Quantum-X网络技术的增强。KV缓存允许存储计算的键值张量,用于后续AI生成和GPU之间的使用。Dynamo是一个开源推理框架,用于规划和路由数据中心的AI工作负载,本质上是数据中心工作负载编排器。NVL144机架设计和英伟达网络技术构成了数据中心的基础设施。在Omniverse上运行的数据中心蛋图为AI数据中心(英伟达称之为AI工厂)的设计、建设和运营提供数字孪生。现在,英伟达推出了Rubin CPX,这是一个优化用于出色执行特定功能的AI GPU推理加速器。通过Rubin CPX,英伟达在设计可针对特定AI功能优化的AI工厂方面又迈出了一步。
英伟达将Rubin CPX称为上下文推理加速器,专为非常复杂的AI任务而设计,如数百万行软件开发、数小时视频生成和深度研究。Rubin CPX与Vera CPU和Rubin AI GPU协同工作。Vera CPU和Rubin AI GPU摄取需要高计算性能的大量数据。然后,Rubin CPX接收上下文输入开始生成输出或内容。这个生成阶段更依赖于内存和网络带宽。因此,Rubin CPX虽然基于相同的Rubin AI GPU架构构建,但设计与Rubin AI GPU不同,配备128GB的GDDR7内存以及硬件编码和解码引擎来支持视频生成。Rubin CPX能够使用NVFP4数据格式实现30 petaFLOPs的性能,与GB300 NVL72相比注意力加速提升3倍,并能处理一百万Token的上下文窗口。内存和架构的变化导致整体性能下降约20 petaFLOPS,但上下文Token生成效率提高。
英伟达计划将Rubin CPX集成到与Vera CPU和Rubin AI GPU的单个机架中,称为Vera Rubin NVL144 CPX,并作为标准Vera Rubin NVL144机架的独立加速器机架提供。Vera Rubin NVL144 CPX机架将配置36个Vera CPU、144个Rubin AI GPU和144个Rubin CPX,具有100TB高速内存和1.7 PB/s内存带宽。结果是8 exaFLOPs的NVFP4性能,比GB300 NVL72机架提升7.5倍。据英伟达称,1亿美元的资本投资可能带来高达50亿美元的回报,投资回报率为30到50倍。双机架解决方案将提供相同性能和额外50TB内存。
更多期待
Rubin CPX是专注于高端生成应用的AI GPU推理加速器平台。我们可能会在未来看到英伟达AI GPU架构的其他版本,专注于AI处理的不同细分市场,如较小的AI模型。我们甚至可能看到针对更具体应用优化的各种CPX解决方案版本。AI不是单一的统一工作负载,优化加速器只是过程中的一步。更重要的是,英伟达继续将整个数据中心视为单一系统,确保解决所有潜在的性能瓶颈,从而实现最高的性能效率和投资回报率。
一个常见问题是行业是否需要新AI GPU的年度发布节奏。目前的答案是,它需要每年推出新的AI GPU,才能跟上AI创新的步伐。此外,还需要针对各种类型的AI工作负载优化的GPU。
Q&A
Q1:Rubin CPX是什么?有什么特殊功能?
A:Rubin CPX是英伟达推出的上下文推理加速器,专为非常复杂的AI任务而设计,如数百万行软件开发、数小时视频生成和深度研究。它配备128GB的GDDR7内存和硬件编码解码引擎,能够处理一百万Token的上下文窗口,与GB300 NVL72相比注意力加速提升3倍。
Q2:Rubin CPX如何与其他硬件协同工作?
A:Rubin CPX与Vera CPU和Rubin AI GPU协同工作。Vera CPU和Rubin AI GPU负责摄取需要高计算性能的大量数据,然后Rubin CPX接收上下文输入开始生成输出或内容。这种分工使得整个系统在处理复杂AI任务时更加高效。
Q3:英伟达AI工厂的投资回报率如何?
A:据英伟达称,1亿美元的资本投资可能带来高达50亿美元的回报,投资回报率为30到50倍。Vera Rubin NVL144 CPX机架配置36个Vera CPU、144个Rubin AI GPU和144个Rubin CPX,能实现8 exaFLOPs的NVFP4性能,比GB300 NVL72机架提升7.5倍。
好文章,需要你的鼓励
Fiverr宣布裁员30%并转型为AI优先组织,CEO表示这是战略重置而非财务困境。公司计划通过AI工具提升效率,小团队配合AI即可完成原本需要整个部门的工作。Fiverr已部署Neo项目匹配工具、个性化AI创作助手等AI应用,客服响应时间缩短,市场完整性和欺诈检测能力增强。公司重申财务指导并预计2026年调整后EBITDA利润率达25%。这一转型反映了AI如何重塑平台经济和自由职业市场。
腾讯混元团队推出P3-SAM系统,这是首个能够自动精确分割任意3D物体的AI模型。该系统采用原生3D处理方式,摆脱了传统方法对2D投影的依赖,在近370万个3D模型上训练而成。P3-SAM支持完全自动分割和交互式分割两种模式,在多个标准测试中达到领先性能,为游戏开发、工业设计等领域提供了强大的3D理解工具。
硅谷科技巨头多年来一直宣扬AI智能体能够自主使用软件完成任务的愿景,但现有的消费级AI智能体技术仍然十分有限。为了让AI智能体更加强大,业界正在探索新技术,其中包括模拟工作空间的强化学习环境。这些环境可以训练智能体执行多步骤任务,正成为智能体开发的关键要素。目前主要AI实验室都在内部构建强化学习环境,同时寻求第三方供应商提供高质量环境。
NVIDIA Research推出了革命性的UDR系统,让用户可以完全自定义AI研究助手的工作策略。该系统解决了传统研究工具固化、难以专业化定制的问题,支持任意语言模型,用户可用自然语言编写研究策略,系统自动转换为可执行代码。提供三种示例策略和直观界面,实现了AI工具的民主化定制,为专业研究和个人调研提供了前所未有的灵活性。