英伟达欲端到端掌控AI数据中心全栈方案

英伟达CEO黄仁勋在GTC大会上发布了涵盖数据中心全栈的五款机架产品,包括新推出的LPX机架,该机架采用从Groq授权的技术,可大幅提升AI推理速度。通过整合Vera CPU、Rubin GPU和Groq 3 LPU芯片,英伟达打造了从计算、存储到网络的完整AI基础设施解决方案,旨在为客户提供更高效的AI工厂运营和更优的经济效益。

在本周于加利福尼亚州圣何塞举办的GTC大会上,英伟达向媒体展示了一幅由40个矩形代表不同类型数据中心服务器机架的图像。这些机架没有标签,像莎士比亚全集书架一样排列,或者更有威慑力地说,像一排士兵方阵。

这堵令人印象深刻的机架墙传递出一个隐含信息:英伟达如果现在还没有完全掌控数据中心的所有处理任务,最终也将从头到尾拥有全部控制权。

在大会舞台上,英伟达首席执行官黄仁勋在周一的主题演讲中宣布了公司芯片和系统产品线的扩展。现有产品线包括Vera CPU芯片、Rubin GPU芯片,现在还加入了一种新型设备机架,用于超快推理,名为LPX。

LPX机架将在今年晚些时候推出,由英伟达使用去年12月以200亿美元从AI初创公司Groq获得授权的知识产权设计的芯片组成。

经过改进的Groq方法在英伟达Groq 3 LPU中实施,将在LPX中与Rubin GPU结合使用,以在推理速度和可处理数据总量之间实现最优平衡。

英伟达超大规模和高性能计算负责人Ian Buck在媒体预发布会上表示,Groq 3 LPU"可以将GPU的极限FLOPS(每秒浮点运算次数)和LPU的带宽合并为一体"。

原始的Groq LPU全称为"语言处理单元",拥有500兆字节的片上SRAM,这是一种比普通芯片内存缓存大得多的快速内存形式。SRAM可以保存大语言模型的权重(即神经参数)以及"KV缓存",即加速推理的中间计算结果。

通过在机架中将LPU与GPU一起使用,LPU的SRAM可以获取最需要的数据,减少从片外DRAM请求数据的需求,而这正是GPU必须做的。Buck表示,这种本地SRAM缓存大大降低了延迟,即检索和输出查询答案的往返时间。

Buck说:"原本需要全天查询的任务将在不到一小时内完成。"

英伟达声称,LPU还可以更高效地执行查询处理。市场研究公司TechInsights基于英伟达交易前现有的Groq芯片报告称,LPU的内存访问"每比特能耗"为三分之一皮焦耳,比GPU访问DRAM的6皮焦耳低20倍。

Buck表示,在相同的每Token成本下,LPX机架中的Groq LPU将以每兆瓦功率提供35倍更多的每秒Token,以每秒处理50万Token、每百万Token价格45美元为例。

这种Token获取和交付速度的急剧提升还导致AI提供商每秒每兆瓦可获得的收入增长10倍,Buck说。

虽然没有明确提及,但鉴于DRAM价格目前正在飙升,减少片外DRAM使用变得越来越重要。

LPX机架是黄仁勋对AI世界整体推销策略的一部分:该公司通过销售方程式的所有部分提供更好的经济效益——不仅仅是Vera、Rubin和LPU芯片,还有运行在其上的软件。

英伟达的Buck告诉记者:"从能源、芯片、基础设施本身、模型和应用程序的五层蛋糕来看,这种多层基础设施正在推动收入和就业岗位的创造。"

LPX与黄仁勋谈到的其他四个机架一起排列在那40个矩形中,构成了他的公司完整AI基础设施的推销方案。

还有Vera-Rubin NVL72,由72个Rubin CPU和36个Vera CPU组成的机架;一个新的纯CPU机架,即Vera CPU机架,由256个Vera CPU和400TB的DRAM组成;一种新型数据存储机架Bluefield 4 STX,作为所有GPU的KV缓存存储库;以及英伟达以太网网络设备机架的最新版本Spectrum-6 SPX。

Buck解释说,Veru CPU机架加速了传统英特尔或AMD基础x86 CPU无法胜任的所有智能体AI任务。

Buck说:"今天的GPU实际上会调用CPU来进行工具调用、SQL查询和代码编译。这种沙盒执行是在数据中心训练和部署智能体的关键部分,这些CPU需要很快。"

他表示,Vera CPU机架在单线程CPU任务上比现有x86 CPU快1.5倍。因此,STX机架将使每瓦性能提高四倍,企业数据的每秒页面数翻倍,并为运行GenTech工作流的AI工厂提供五倍的上下文内存所需Token。

Buck说:"结果令人震惊。"

Buck解释说,新的数据存储机架是"为存储和检索大语言模型和GenTech工作流生成的大量键值缓存数据而优化的高带宽共享层"。虽然机架由英伟达Bluefield DPU(数据处理单元,CPU的伴侣)组成,但STX只是一个"参考架构",Buck说,这意味着实际机架将由英伟达合作伙伴设计和制造。

黄仁勋主题演讲展现的规模和野心广度令人瞩目。正如我的同事Radhika Rajkumar在她的报道中详述的那样,黄仁勋还推广了自己的智能体AI产品NemoClaw,以及多个所谓的物理AI产品,主要是机器人技术。黄仁勋甚至谈到了太空AI,尽管据Radhika称,基于卫星的服务器部署细节仍然模糊。

Buck将这些不同服务器墙描述为"极端的端到端协同设计,以便为AI工厂的所有工作负载和所有行业提供最大价值"。

这也是英伟达向任何考虑使用竞争对手AMD的CPU和GPU,或使用Cerebras Systems等初创挑战者的异构AI设备的人明确其价值主张的精明方式。凭借涵盖数据中心所有功能的五个设备机架组合,黄仁勋告诉客户,当全部由英伟达供应时,一切都将运行得更高效,并产生更多AI收入。

对黄仁勋来说,这也是数十年来从现有厂商手中夺取计算部分控制权的追求的顶点。过去,他曾试图用Denver等强大的服务器CPU冲击服务器CPU市场。但当英特尔至强CPU的既有力量变得难以克服时,黄仁勋不得不撤退。

现在拥有数据中心完整组件的书架,黄仁勋的公司准备定义计算时代,并压倒定义前一个时代的公司。

Q&A

Q1:LPX机架有什么特点?它如何提升AI推理性能?

A:LPX机架是英伟达推出的超快推理设备,使用从Groq获得授权的技术制造。它结合了Groq 3 LPU和Rubin GPU,通过500兆字节的片上SRAM减少数据访问延迟,能够将原本需要全天查询的任务缩短到不到一小时内完成,同时提供35倍更多的每秒Token处理能力。

Q2:英伟达的五个机架系统分别有什么作用?

A:英伟达推出五个机架系统构成完整AI基础设施:LPX机架用于超快推理;Vera-Rubin NVL72结合CPU和GPU;Vera CPU机架专门处理智能体AI任务;Bluefield 4 STX作为数据存储库;Spectrum-6 SPX提供以太网络连接。这些机架覆盖数据中心所有核心功能。

Q3:为什么英伟达要推出端到端的数据中心解决方案?

A:英伟达希望通过提供完整的硬件和软件组合来提升经济效益,相比使用竞争对手AMD芯片或其他AI设备厂商的方案,全套英伟达解决方案能更高效运行并产生更多AI收入。这也是黄仁勋数十年来从传统厂商手中夺取计算控制权野心的体现。

来源:ZDNET

0赞

好文章,需要你的鼓励

2026

03/17

14:51

分享

点赞

邮件订阅