在周一的GTC主题演讲中,英伟达CEO黄仁勋透露,公司将在其新发布的Vera Rubin机架系统中使用Groq的语言处理单元(LPU)技术来提升推理性能,这项技术英伟达花费了200亿美元收购。
英伟达超大规模和高性能计算副总裁Ian Buck在周日黄仁勋主题演讲前告诉媒体,通过这项技术,这家GPU巨头现在能够以每用户每秒数百甚至数千Token的速度为大规模万亿参数的大语言模型提供服务。
到目前为止,超低延迟推理一直被少数几家精品芯片公司主导,如Cerebras、SambaNova,当然还有Groq,英伟达去年底通过人才收购几乎完全吸收了后者。
过去一年中,对这些所谓高端Token的需求不断增长。OpenAI正在使用Cerebras的餐盘大小的加速器为GPT-5.3 Codex-Spark等模型实现近乎瞬时的代码生成。
通过将其GPU与Groq的LPU结合,英伟达预计推理服务提供商将能够对每百万生成的Token收费高达45美元。作为对比,OpenAI目前对其顶级GPT-5.4模型的API访问每百万输出Token收费约15美元。
需要明确的是,LPU不会替代英伟达的GPU,而是对其进行增强。
解码阶段的速度优势
大语言模型推理包含两个阶段:计算密集型的预填充阶段(处理提示)和带宽密集型的解码阶段(生成响应)。
英伟达新发布的Rubin GPU具有高达50 petaFLOPS的计算能力,在计算方面表现出色,但在内存带宽方面,Groq的最新芯片技术拥有22 TB/s的HBM4内存带宽,速度快近7倍,达到150 TB/s。
这使得Groq的LPU成为理想的解码加速器。英伟达计划在新的LPX机架系统中装入256个这样的芯片,该系统将通过定制的Spectrum-X互连连接到相邻的Vera-Rubin NVL72机架系统。GPU将处理计算密集型的提示处理,而LPU则负责输出Token。
这家GPU巨头需要如此多的芯片,因为虽然SRAM速度很快,但这些芯片在容量和计算密度方面都不够强大。
每个Groq 3 LPU能够提供1.2 petaFLOPS的FP8性能,包含500 MB的板载内存。这大约只有英伟达Rubin GPU容量的1/500。
Buck解释说:"LPU专门针对极低延迟的Token生成进行优化,提供每秒数千Token的速率。当然,权衡是你需要很多芯片才能实现这种性能。每个芯片的每秒Token数实际上相当低。"
换句话说,要做任何有意义的事情,英伟达需要大量的这些芯片。
即使每个机架有256个芯片,也只有128 GB的超快内存,这对于Kimi K2等万亿参数模型来说远远不够。以4位精度计算,你至少需要512 GB的内存或大约一千个LPU才能将1万亿参数模型保存在内存中。
英伟达表示,多个LPX机架可以组合在一起支持这些更大的模型。
将Groq最新的LPU集成到英伟达的LPX机架中,对这家AI基础设施巨头来说代表了某种程度的路线修正。英伟达此前在去年的Computex上宣布了一款名为Rubin CPX的专用预填充处理器。基本想法是使用配备GDDR7的Rubin CPX处理器进行预填充处理,使用配备HBM的Rubin GPU进行解码。然而,该项目似乎已被放弃,转而支持基于Groq LPU的解码加速器。
Buck说:"将LPU和LPX集成到我们的书面平台中以优化解码,这是我们现在关注的重点。"
英伟达并不是唯一一家希望将其计算密集型AI加速器与像Groq这样的SRAM密集型架构融合的公司。
周五,亚马逊云服务(AWS)宣布与Cerebras合作开发联合推理平台,类似于英伟达的Groq 3 LPX。在这种情况下,该平台将使用AWS的Trainium 3加速器进行提示处理,使用Cerebras的WSE-3 ASIC生成低延迟Token,每个芯片在晶圆级芯片上集成44 GB的SRAM。
英伟达基于Groq的LPX系统预计将与其Vera Rubin机架系统一起在今年晚些时候发货,尽管访问权限和软件支持可能会有所限制。至少最初,英伟达专注于需要为万亿级参数模型提供高Token速率服务的模型构建者和服务提供商。
Buck还指出,虽然英伟达使用Groq的ASIC来加速其推理平台,但它们还不原生支持CUDA。
他解释说:"目前CUDA没有变化。我们利用LPU作为在Vera NVL 72平台上运行的CUDA的加速器。"
Q&A
Q1:Groq的LPU技术有什么特殊优势?
A:Groq的LPU专门针对极低延迟的Token生成进行优化,能够提供每秒数千Token的速率,其22 TB/s的HBM4内存带宽比英伟达GPU快近7倍,达到150 TB/s,是理想的解码加速器。
Q2:英伟达的LPX系统如何工作?
A:LPX系统装入256个Groq LPU芯片,通过定制Spectrum-X互连连接到Vera-Rubin NVL72机架系统。GPU处理计算密集型的提示处理,LPU负责输出Token,两者协同工作提升推理性能。
Q3:这项技术对AI服务定价有什么影响?
A:英伟达预计,通过结合GPU和LPU技术,推理服务提供商将能够对每百万生成的Token收费高达45美元,相比之下OpenAI目前对其顶级模型收费约15美元每百万输出Token。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。