英伟达发布Vera Rubin架构,专为AI智能体设计

英伟达推出Vera Rubin计算平台,专为驱动具备思考和推理能力的智能AI系统而设计。该平台采用NVL72液冷机架系统,集成六种芯片包括新Vera CPU和Rubin GPU。相比Blackwell架构,Rubin GPU推理速度提升5倍,训练速度提升3.5倍。平台还推出推理上下文内存存储解决方案,性能提升5倍。此外,英伟达还发布了面向自动驾驶的开源Alpamayo模型系列。

英伟达发布了全新的Vera Rubin计算平台,该架构专门为支持具备思考和推理能力的智能体人工智能系统而设计,而非简单的信息检索功能。

这一发布标志着英伟达正在应对AI计算需求的指数级增长,这一增长遵循三大扩展定律:模型预训练、后训练以及测试时扩展,其中AI模型通过在推理阶段花费更多计算周期进行思考来生成更好的结果。

在2026年CES展会前的虚拟媒体发布会上,英伟达高性能计算和AI超大规模基础设施高级总监Dion Harris详细介绍了Vera Rubin NVL72,这是一个完全液冷的机架级系统,集成了六种不同的芯片,包括全新的Vera CPU和Rubin图形处理器。

Harris表示:"在过去一年中,我们见证了语言模型智能水平的惊人飞跃。像Kimi K2 Thinking这样的顶级模型在推理过程中采用推理机制,生成更多Token以获得更好的答案。Token数量的增加需要计算能力的相应提升。"

Vera Rubin平台是当前Blackwell架构的继任者,性能实现了显著飞跃。全新的Rubin GPU配备高带宽内存,带宽可达每秒22TB,并搭载第三代Transformer引擎。

根据英伟达数据,与Blackwell相比,Rubin GPU在推理任务中的速度提升5倍,在训练工作负载处理方面快3.5倍。该系统专门构建用于处理专家混合模型,这类模型需要GPU之间进行大规模的全对全通信。

Harris说:"Rubin为最苛刻的专家混合模型提供了必要的性能支持。通过Vera Rubin架构,我们正在帮助合作伙伴和客户以最低成本构建世界上最大、最先进的AI系统。"

在CPU方面,Harris表示Vera专为数据移动和智能体处理而构建,配备88个定制的Olympus Arm核心。他补充道:"与我们上一代Grace CPU相比,Vera在专家混合模型训练和推理方面的数据处理、压缩和代码编译性能提升了一倍。"

Vera Rubin解决的一个关键技术难题是KV缓存的管理,这是长时间运行AI交互所需的上下文内存。随着AI智能体长期维持状态,GPU内存成为稀缺资源。

为此,英伟达宣布推出推理上下文内存存储平台,专门为推理创建了一个内存层。该平台位于GPU和传统存储之间,由英伟达的BlueField-4数据处理单元和Spectrum-X以太网网络提供支持。

Harris表示:"与推理上下文中使用的传统网络存储相比,该平台每秒处理的Token数量提升5倍,每美元总拥有成本的性能提升5倍,能效提升5倍,这直接转化为更高的吞吐量、更低的延迟和更可预测的行为。"

英伟达确认,基于Vera Rubin的产品将于2026年下半年通过合作伙伴提供,微软Azure和CoreWeave将是首批部署实例的云服务提供商。

开源和物理AI

除了硬件,英伟达高管还强调了公司作为软件提供商的作用。英伟达企业生成式AI软件副总裁Karri Briski宣布扩大公司的开源贡献,包括Nemotron系列的新模型,现在包括专门用于检索增强生成、内容安全和语音的模型,以及用于创建合成训练数据的Cosmos世界基础模型。

此外,英伟达还开发了Alpamayo,这是一个面向汽车行业的开源视觉-语言-行动推理模型系列。

英伟达汽车副总裁Ali Kani表示:"一切移动的物体最终都将完全自主,由物理AI驱动。Alpamayo是行业内首个真正让自动驾驶汽车能够思考的模型。"

Kani说,与以往基于感知的系统不同,视觉-语言-行动推理模型可以将自动驾驶中的复杂边缘情况(如交通信号灯故障)分解为步骤,遍历每种可能性以选择最安全的路径。

这些模型可以接受文本、摄像头馈送和导航历史等输入,然后输出轨迹和推理轨迹,"因此我们还可以告诉乘客自动驾驶汽车采取某项行动的原因",他补充道。

随着Alpamayo的发布,英伟达还发布了用于训练Alpamayo的1700小时驾驶数据,这是行业内最大、最多样化的公开自动驾驶汽车数据集。公司还发布了AlpaSim,这是一个开源仿真框架,开发者可以使用它来评估视觉-语言-行动推理模型,并使用自己的数据微调Alpamayo。

在发布会上,Briski阐明了英伟达关于开源工具的商业策略。她表示,虽然公司将开源模型视为产品,但并不直接从中获利。

相反,公司通过英伟达AI企业平台和英伟达推理微服务实现营收,这是一个容器化运行时软件,允许企业在云端和本地环境中安全高效地运行这些开源模型。

Q&A

Q1:Vera Rubin架构相比Blackwell有哪些性能提升?

A:根据英伟达数据,Rubin GPU在推理任务中的速度比Blackwell提升5倍,在训练工作负载处理方面快3.5倍。新的Rubin GPU配备高带宽内存,带宽可达每秒22TB,并搭载第三代Transformer引擎,专门用于处理需要大规模GPU间通信的专家混合模型。

Q2:Alpamayo模型与传统自动驾驶系统有什么不同?

A:Alpamayo是开源视觉-语言-行动推理模型,与以往基于感知的系统不同,它可以将复杂的自动驾驶边缘情况分解为步骤,遍历每种可能性选择最安全路径。该模型能接受文本、摄像头和导航历史输入,输出轨迹和推理轨迹,并能解释自动驾驶汽车采取行动的原因。

Q3:英伟达如何通过开源模型实现商业化?

A:英伟达不直接从开源模型获利,而是通过英伟达AI企业平台和英伟达推理微服务实现营收。这些是容器化运行时软件,允许企业在云端和本地环境中安全高效地运行开源模型,从而为公司带来收益。

来源:Computer Weekly

0赞

好文章,需要你的鼓励

2026

01/07

08:08

分享

点赞

邮件订阅