英伟达200亿美元Groq技术加持新LPX机架系统大幅提升AI响应速度

英伟达在GTC大会上宣布，将使用价值200亿美元收购的Groq语言处理单元（LPU）技术，来提升新发布的Vera Rubin机架系统的AI推理性能。这项技术使英伟达能够以每用户每秒数百至数千个token的速度服务大型语言模型。LPU专门优化低延迟token生成，与GPU配合使用，GPU处理计算密集型提示处理，LPU负责快速生成响应。

在周一的GTC主题演讲中，英伟达CEO黄仁勋透露，公司将在其新发布的Vera Rubin机架系统中使用Groq的语言处理单元（LPU）技术来提升推理性能，这项技术英伟达花费了200亿美元收购。

英伟达超大规模和高性能计算副总裁Ian Buck在周日黄仁勋主题演讲前告诉媒体，通过这项技术，这家GPU巨头现在能够以每用户每秒数百甚至数千Token的速度为大规模万亿参数的大语言模型提供服务。

到目前为止，超低延迟推理一直被少数几家精品芯片公司主导，如Cerebras、SambaNova，当然还有Groq，英伟达去年底通过人才收购几乎完全吸收了后者。

过去一年中，对这些所谓高端Token的需求不断增长。OpenAI正在使用Cerebras的餐盘大小的加速器为GPT-5.3 Codex-Spark等模型实现近乎瞬时的代码生成。

通过将其GPU与Groq的LPU结合，英伟达预计推理服务提供商将能够对每百万生成的Token收费高达45美元。作为对比，OpenAI目前对其顶级GPT-5.4模型的API访问每百万输出Token收费约15美元。

需要明确的是，LPU不会替代英伟达的GPU，而是对其进行增强。

解码阶段的速度优势

大语言模型推理包含两个阶段：计算密集型的预填充阶段（处理提示）和带宽密集型的解码阶段（生成响应）。

英伟达新发布的Rubin GPU具有高达50 petaFLOPS的计算能力，在计算方面表现出色，但在内存带宽方面，Groq的最新芯片技术拥有22 TB/s的HBM4内存带宽，速度快近7倍，达到150 TB/s。

这使得Groq的LPU成为理想的解码加速器。英伟达计划在新的LPX机架系统中装入256个这样的芯片，该系统将通过定制的Spectrum-X互连连接到相邻的Vera-Rubin NVL72机架系统。GPU将处理计算密集型的提示处理，而LPU则负责输出Token。

这家GPU巨头需要如此多的芯片，因为虽然SRAM速度很快，但这些芯片在容量和计算密度方面都不够强大。

每个Groq 3 LPU能够提供1.2 petaFLOPS的FP8性能，包含500 MB的板载内存。这大约只有英伟达Rubin GPU容量的1/500。

Buck解释说："LPU专门针对极低延迟的Token生成进行优化，提供每秒数千Token的速率。当然，权衡是你需要很多芯片才能实现这种性能。每个芯片的每秒Token数实际上相当低。"

换句话说，要做任何有意义的事情，英伟达需要大量的这些芯片。

即使每个机架有256个芯片，也只有128 GB的超快内存，这对于Kimi K2等万亿参数模型来说远远不够。以4位精度计算，你至少需要512 GB的内存或大约一千个LPU才能将1万亿参数模型保存在内存中。

英伟达表示，多个LPX机架可以组合在一起支持这些更大的模型。

将Groq最新的LPU集成到英伟达的LPX机架中，对这家AI基础设施巨头来说代表了某种程度的路线修正。英伟达此前在去年的Computex上宣布了一款名为Rubin CPX的专用预填充处理器。基本想法是使用配备GDDR7的Rubin CPX处理器进行预填充处理，使用配备HBM的Rubin GPU进行解码。然而，该项目似乎已被放弃，转而支持基于Groq LPU的解码加速器。

Buck说："将LPU和LPX集成到我们的书面平台中以优化解码，这是我们现在关注的重点。"

英伟达并不是唯一一家希望将其计算密集型AI加速器与像Groq这样的SRAM密集型架构融合的公司。

周五，亚马逊云服务(AWS)宣布与Cerebras合作开发联合推理平台，类似于英伟达的Groq 3 LPX。在这种情况下，该平台将使用AWS的Trainium 3加速器进行提示处理，使用Cerebras的WSE-3 ASIC生成低延迟Token，每个芯片在晶圆级芯片上集成44 GB的SRAM。

英伟达基于Groq的LPX系统预计将与其Vera Rubin机架系统一起在今年晚些时候发货，尽管访问权限和软件支持可能会有所限制。至少最初，英伟达专注于需要为万亿级参数模型提供高Token速率服务的模型构建者和服务提供商。

Buck还指出，虽然英伟达使用Groq的ASIC来加速其推理平台，但它们还不原生支持CUDA。

他解释说："目前CUDA没有变化。我们利用LPU作为在Vera NVL 72平台上运行的CUDA的加速器。"

Q&A

Q1：Groq的LPU技术有什么特殊优势？

A：Groq的LPU专门针对极低延迟的Token生成进行优化，能够提供每秒数千Token的速率，其22 TB/s的HBM4内存带宽比英伟达GPU快近7倍，达到150 TB/s，是理想的解码加速器。

Q2：英伟达的LPX系统如何工作？

A：LPX系统装入256个Groq LPU芯片，通过定制Spectrum-X互连连接到Vera-Rubin NVL72机架系统。GPU处理计算密集型的提示处理，LPU负责输出Token，两者协同工作提升推理性能。

Q3：这项技术对AI服务定价有什么影响？

A：英伟达预计，通过结合GPU和LPU技术，推理服务提供商将能够对每百万生成的Token收费高达45美元，相比之下OpenAI目前对其顶级模型收费约15美元每百万输出Token。

来源：The Register

0赞

好文章，需要你的鼓励

英伟达200亿美元Groq技术加持新LPX机架系统 大幅提升AI响应速度

来源：The Register

2026

03/17

13:37

分享

点赞

丰田取消重要电动车型开发计划

AI基础设施为何转向800 VDC供电架构

苹果发布iPadOS 26.6、tvOS 26.6和watchOS 26.6公测版【审核标准分类名称：正常】

约翰·特拉沃尔塔导演处女作登陆Apple TV

四款Matter认证Edison智能灯泡低至每个8美元

蓝色起源新格伦火箭发射台爆炸，闪电塔倒塌【更新：无人员伤亡】

任天堂Switch 2轻薄收纳保护包，低至19美元，高性价比之选

太阳能智能户外灯双支装特惠，每支仅需12美元，立省31%

AMD 以锐龙 AI Halo 开发者平台与锐龙 AI Max PRO 400 系列处理器赋能下一代智能体主机

Cognition创始人吴思齐：AI编程智能体不应取代人类

Google推出开源Agent Executor支持企业级AI智能体部署

DeepSeek V4-Pro大幅降价加剧AI价格战

英伟达推出NemoClaw套件保障智能体安全应用

Nvidia DLSS 5技术将带玩家走出恐怖谷效应

CIO保罗·科比：没有IT项目，只有业务项目

ServiceNow CEO警告：AI智能体或致应届生失业率超30%

智能体驱动的安全验证：下一代网络安全防护模式

数据分析助力英格兰女足雄狮军团咆哮赛场

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

AI聊天机器人引发精神妄想担忧，新研究发现潜在风险

苹果公司称其即将到来的50周年庆典献礼是用户

美国财政部发布金融机构AI风险管理指导手册

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

英伟达200亿美元Groq技术加持新LPX机架系统大幅提升AI响应速度