在周一的GTC主题演讲中,英伟达CEO黄仁勋透露,公司将在其新发布的Vera Rubin机架系统中使用Groq的语言处理单元(LPU)技术来提升推理性能,这项技术英伟达花费了200亿美元收购。
英伟达超大规模和高性能计算副总裁Ian Buck在周日黄仁勋主题演讲前告诉媒体,通过这项技术,这家GPU巨头现在能够以每用户每秒数百甚至数千Token的速度为大规模万亿参数的大语言模型提供服务。
到目前为止,超低延迟推理一直被少数几家精品芯片公司主导,如Cerebras、SambaNova,当然还有Groq,英伟达去年底通过人才收购几乎完全吸收了后者。
过去一年中,对这些所谓高端Token的需求不断增长。OpenAI正在使用Cerebras的餐盘大小的加速器为GPT-5.3 Codex-Spark等模型实现近乎瞬时的代码生成。
通过将其GPU与Groq的LPU结合,英伟达预计推理服务提供商将能够对每百万生成的Token收费高达45美元。作为对比,OpenAI目前对其顶级GPT-5.4模型的API访问每百万输出Token收费约15美元。
需要明确的是,LPU不会替代英伟达的GPU,而是对其进行增强。
解码阶段的速度优势
大语言模型推理包含两个阶段:计算密集型的预填充阶段(处理提示)和带宽密集型的解码阶段(生成响应)。
英伟达新发布的Rubin GPU具有高达50 petaFLOPS的计算能力,在计算方面表现出色,但在内存带宽方面,Groq的最新芯片技术拥有22 TB/s的HBM4内存带宽,速度快近7倍,达到150 TB/s。
这使得Groq的LPU成为理想的解码加速器。英伟达计划在新的LPX机架系统中装入256个这样的芯片,该系统将通过定制的Spectrum-X互连连接到相邻的Vera-Rubin NVL72机架系统。GPU将处理计算密集型的提示处理,而LPU则负责输出Token。
这家GPU巨头需要如此多的芯片,因为虽然SRAM速度很快,但这些芯片在容量和计算密度方面都不够强大。
每个Groq 3 LPU能够提供1.2 petaFLOPS的FP8性能,包含500 MB的板载内存。这大约只有英伟达Rubin GPU容量的1/500。
Buck解释说:"LPU专门针对极低延迟的Token生成进行优化,提供每秒数千Token的速率。当然,权衡是你需要很多芯片才能实现这种性能。每个芯片的每秒Token数实际上相当低。"
换句话说,要做任何有意义的事情,英伟达需要大量的这些芯片。
即使每个机架有256个芯片,也只有128 GB的超快内存,这对于Kimi K2等万亿参数模型来说远远不够。以4位精度计算,你至少需要512 GB的内存或大约一千个LPU才能将1万亿参数模型保存在内存中。
英伟达表示,多个LPX机架可以组合在一起支持这些更大的模型。
将Groq最新的LPU集成到英伟达的LPX机架中,对这家AI基础设施巨头来说代表了某种程度的路线修正。英伟达此前在去年的Computex上宣布了一款名为Rubin CPX的专用预填充处理器。基本想法是使用配备GDDR7的Rubin CPX处理器进行预填充处理,使用配备HBM的Rubin GPU进行解码。然而,该项目似乎已被放弃,转而支持基于Groq LPU的解码加速器。
Buck说:"将LPU和LPX集成到我们的书面平台中以优化解码,这是我们现在关注的重点。"
英伟达并不是唯一一家希望将其计算密集型AI加速器与像Groq这样的SRAM密集型架构融合的公司。
周五,亚马逊云服务(AWS)宣布与Cerebras合作开发联合推理平台,类似于英伟达的Groq 3 LPX。在这种情况下,该平台将使用AWS的Trainium 3加速器进行提示处理,使用Cerebras的WSE-3 ASIC生成低延迟Token,每个芯片在晶圆级芯片上集成44 GB的SRAM。
英伟达基于Groq的LPX系统预计将与其Vera Rubin机架系统一起在今年晚些时候发货,尽管访问权限和软件支持可能会有所限制。至少最初,英伟达专注于需要为万亿级参数模型提供高Token速率服务的模型构建者和服务提供商。
Buck还指出,虽然英伟达使用Groq的ASIC来加速其推理平台,但它们还不原生支持CUDA。
他解释说:"目前CUDA没有变化。我们利用LPU作为在Vera NVL 72平台上运行的CUDA的加速器。"
Q&A
Q1:Groq的LPU技术有什么特殊优势?
A:Groq的LPU专门针对极低延迟的Token生成进行优化,能够提供每秒数千Token的速率,其22 TB/s的HBM4内存带宽比英伟达GPU快近7倍,达到150 TB/s,是理想的解码加速器。
Q2:英伟达的LPX系统如何工作?
A:LPX系统装入256个Groq LPU芯片,通过定制Spectrum-X互连连接到Vera-Rubin NVL72机架系统。GPU处理计算密集型的提示处理,LPU负责输出Token,两者协同工作提升推理性能。
Q3:这项技术对AI服务定价有什么影响?
A:英伟达预计,通过结合GPU和LPU技术,推理服务提供商将能够对每百万生成的Token收费高达45美元,相比之下OpenAI目前对其顶级模型收费约15美元每百万输出Token。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。