英伟达发布Groq 3 LPX推理加速器，瞄准AI基础设施下一战场

英伟达发布Groq 3 LPX推理加速器，结合Vera Rubin GPU架构，专为万亿参数模型和百万token上下文优化。该技术可实现每兆瓦高达35倍推理吞吐量提升，并带来10倍收入机会。新架构采用分离式推理方式，GPU处理预填充阶段，LPX处理延迟敏感的解码阶段，显著降低延迟。分析师认为这代表了从AI训练向生产推理的范式转变，但企业应评估实际需求和成本效益。

2026年被预测为AI从试点转向生产的关键之年，将在企业中发挥可衡量的价值。但尽管许多企业已经准备就绪，底层基础设施似乎还未跟上步伐，特别是在下一阶段的推理计算方面。

英伟达表示已经克服了这些限制，在加速计算领域取得了其称之为"里程碑式"的成就。

这家芯片公司今日发布了针对Vera Rubin GPU的英伟达Groq 3 LPX推理加速器。这种组合架构针对"万亿参数模型和百万Token上下文"进行了优化，英伟达声称可以实现每兆瓦最高35倍的推理吞吐量提升，以及最高10倍的收入机会增长。

Groq 3 LPX在今日的英伟达GTC大会上发布，它是包含七款新芯片和五个机架的架构的一部分，旨在协同工作形成"一台大型超级计算机"。

英伟达表示，这一发布代表了范式转变，架构正从仅仅训练大语言模型转向在生产环境中运行推理工作负载。

Moor Insights & Strategy副总裁兼首席分析师Matt Kimball指出："训练是一种'忘记预算、忘记功耗，尽快训练好模型'的思维方式，而推理是AI驱动工作流和应用的持续性能表现。"

他指出，这是一个重要的成本考量，"必须在所有地方、所有时间为所有用户实现"。

新的Groq 3语言处理单元基于Groq公司的知识产权，该公司去年底与英伟达签署了200亿美元的许可协议。据这家芯片公司介绍，一组语言处理单元可以作为"巨型单一处理器"运行。

虽然Rubin GPU将继续处理预填充（提示处理），但Groq的LPX现在将处理解码（响应）中的延迟敏感部分。英伟达表示，两者结合可以提供"新级别的推理性能"。

每个LPX机架配备256个语言处理单元，拥有128GB片上静态随机存取存储器、150TB/s带宽、芯片到芯片链路以及与NVL72（英伟达液冷AI超级计算机）的高速连接。英伟达声称，这些组合可以将延迟降低到"接近零"。

LPX与Vera Rubin AI工厂的集成将在今年下半年推出。

Greyhound Research首席分析师Sanchit Vir Gogia指出，训练和推理对基础设施的压力截然不同。训练奖励"大规模并行处理和暴力扩展"，而推理（特别是长上下文和交互式推理）对延迟、内存移动、缓存行为、并发性和每个Token交付成本要敏感得多。

GPU在训练方面表现"卓越"，但行业已经达到了一个单一主导GPU方案不再足够的阶段，Gogia说。训练是有限的，而推理是连续的：每个提示、工具调用、推理步骤、检索循环和智能体循环都会在生产中消耗资源。

他说，LPX正在解决AI基础设施堆栈中"最棘手的部分"，挑战不仅仅是原始计算能力。当前的AI部署在必须结合长上下文、顺序Token生成、内存压力和低延迟期望时开始"摇摆不定"，同时还要在不可预测的交互式需求中保持昂贵基础设施的可用性。

"英伟达现在公开围绕推理作为独特的系统问题重新设计加速计算，而不是假装同一架构可以优雅地处理从训练到长上下文、交互式、智能体推理的所有事情，"Gogia说。"这才是真正的转变。"

LPX之所以至关重要，是因为它解决了预填充-解码分离问题。预填充和解码是大语言模型推理的两个基本但截然不同的阶段。

Kimball解释说，预填充是提示阶段：输入一个问题，进行解释，并"从一堆来源收集大量数据"来创建上下文并确定正确答案。另一方面，解码（也称为自回归推理）发生在用户看到响应时。

"推理实际上是一个标题下的两个工作负载：预填充和解码，"Kimball说。"预填充是高度并行化的，解码是高度串行化的。"

GPU对预填充是最佳选择，因为它们擅长高度并行化功能；像Groq这样的加速器更适合解码，因为它们擅长高度串行化任务，其中Token生成是完全并行化的。

"解码越快，我的智能体工作流表现越好，"Kimball说。

他指出，AWS和Cerebras最近也宣布了通过Bedrock支持这种分解推理环境的合作伙伴关系，并称英伟达的公告不仅是AI经济学的转变，也是推理经济学的转变。

"我们有这些训练好的模型，推理是AI在企业中真正实现的地方，"Kimball指出。"如果这些模型不能使流程更准确、更快速、更高效，那有什么用呢？"

不过，重要的是要理解LPX并不是"通用企业技术故事"，Gogia指出。

"它是对高级、延迟敏感、内存密集型推理工作负载需求的专业化基础设施响应，"他强调说，"IT领导者不应被英伟达的性能框架迷惑。"

每个IT领导者应该问的第一个问题是"极其简单的"：他们的工作负载真的需要这种级别的基础设施吗？

因为实际上，大多数企业不需要万亿参数推理和百万Token上下文作为默认运营模式。许多企业仍在努力管理较小规模的生成式AI部署，更不用说工业规模的智能体系统了。

他指出，企业在AI下一阶段的更大突破将来自更好的模型路由、缓存、软件优化、内存管理、工作流重新设计和推理遥测，而不是"直接跳到最先进的机架规模架构"。

另一个重要考虑是内部工作负载经济学：应用程序每个有用Token的成本是多少？当上下文扩展、用户增加或智能体开始链接更多推理步骤时会发生什么？有多少基础设施真正得到了利用？

"这些才是真正的问题，因为AI基础设施越来越关注'有效输出'，而不仅仅是吞吐量，"Gogia说。

此外，他指出，IT领导者应该将内存视为"战略约束"。长上下文和KV-cache增长不会消失，虽然英伟达对此的"巧妙"回答是分层、外部化上下文内存和跨机架协调，但这使得架构决策更加复杂。

此外，Gogia指出，功耗和冷却必须被视为一级变量，领导者必须密切关注生态系统成熟度和锁定问题。英伟达试图不仅拥有硅层，还要拥有系统设计、编排和存储分层，同时主导围绕高级Token的经济叙述。

这使得软件可移植性和生态系统灵活性至关重要。"下一阶段的赢家不会是那些简单购买更多AI基础设施的组织，"Gogia说。"而是那些确切知道高级推理在哪里重要、在哪里不重要，以及如何管理这种差异的组织。"

Q&A

Q1：Groq 3 LPX推理加速器有什么特点？

A：Groq 3 LPX是英伟达发布的推理加速器，专门针对万亿参数模型和百万Token上下文优化。它与Vera Rubin GPU结合使用，可以实现每兆瓦最高35倍的推理吞吐量提升和最高10倍的收入机会增长，主要用于处理延迟敏感的解码任务。

Q2：为什么英伟达要区分训练和推理计算？

A：训练和推理对基础设施的要求完全不同。训练是"忘记预算、忘记功耗，尽快训练好模型"的思维方式，而推理是AI驱动应用的持续性能表现。推理需要处理更多的延迟敏感任务、内存管理和成本控制，因此需要专门的架构设计。

Q3：企业是否需要立即采用LPX技术？

A：不一定。专家建议企业首先评估是否真正需要万亿参数推理和百万Token上下文。大多数企业仍在努力管理较小规模的生成式AI部署，更大的突破可能来自更好的模型路由、缓存优化、软件优化等，而非直接跳到最先进的机架规模架构。

来源：Networkworld

0赞

好文章，需要你的鼓励

英伟达发布Groq 3 LPX推理加速器，瞄准AI基础设施下一战场

来源：Networkworld

2026

03/18

17:26

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

GTC聚焦NVIDIA RTX PC和DGX Spark本地运行最新开放模型和智能体

WorldCoin推出新服务：扫描眼球证明AI智能体背后的真实身份

您需要升级MacBook Air吗？M5、M4、M3、M2、M1型号对比

机器学习技术改进乳腺癌筛查工作流程

Google医疗AI：从实验室到临床应用的突破性进展

Fitbit健康教练将集成医疗记录数据提供个性化指导

Workday推出Sana：AI知识发现与工作自动化平台

Nvidia GTC大会成为供应商"依赖性展示"之旅

Mistral推出企业定制AI平台挑战OpenAI

为何Garry Tan的Claude Code配置引发如此多的赞誉与争议

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会