2026年被预测为AI从试点转向生产的关键之年,将在企业中发挥可衡量的价值。但尽管许多企业已经准备就绪,底层基础设施似乎还未跟上步伐,特别是在下一阶段的推理计算方面。
英伟达表示已经克服了这些限制,在加速计算领域取得了其称之为"里程碑式"的成就。
这家芯片公司今日发布了针对Vera Rubin GPU的英伟达Groq 3 LPX推理加速器。这种组合架构针对"万亿参数模型和百万Token上下文"进行了优化,英伟达声称可以实现每兆瓦最高35倍的推理吞吐量提升,以及最高10倍的收入机会增长。
Groq 3 LPX在今日的英伟达GTC大会上发布,它是包含七款新芯片和五个机架的架构的一部分,旨在协同工作形成"一台大型超级计算机"。
英伟达表示,这一发布代表了范式转变,架构正从仅仅训练大语言模型转向在生产环境中运行推理工作负载。
Moor Insights & Strategy副总裁兼首席分析师Matt Kimball指出:"训练是一种'忘记预算、忘记功耗,尽快训练好模型'的思维方式,而推理是AI驱动工作流和应用的持续性能表现。"
他指出,这是一个重要的成本考量,"必须在所有地方、所有时间为所有用户实现"。
新的Groq 3语言处理单元基于Groq公司的知识产权,该公司去年底与英伟达签署了200亿美元的许可协议。据这家芯片公司介绍,一组语言处理单元可以作为"巨型单一处理器"运行。
虽然Rubin GPU将继续处理预填充(提示处理),但Groq的LPX现在将处理解码(响应)中的延迟敏感部分。英伟达表示,两者结合可以提供"新级别的推理性能"。
每个LPX机架配备256个语言处理单元,拥有128GB片上静态随机存取存储器、150TB/s带宽、芯片到芯片链路以及与NVL72(英伟达液冷AI超级计算机)的高速连接。英伟达声称,这些组合可以将延迟降低到"接近零"。
LPX与Vera Rubin AI工厂的集成将在今年下半年推出。
Greyhound Research首席分析师Sanchit Vir Gogia指出,训练和推理对基础设施的压力截然不同。训练奖励"大规模并行处理和暴力扩展",而推理(特别是长上下文和交互式推理)对延迟、内存移动、缓存行为、并发性和每个Token交付成本要敏感得多。
GPU在训练方面表现"卓越",但行业已经达到了一个单一主导GPU方案不再足够的阶段,Gogia说。训练是有限的,而推理是连续的:每个提示、工具调用、推理步骤、检索循环和智能体循环都会在生产中消耗资源。
他说,LPX正在解决AI基础设施堆栈中"最棘手的部分",挑战不仅仅是原始计算能力。当前的AI部署在必须结合长上下文、顺序Token生成、内存压力和低延迟期望时开始"摇摆不定",同时还要在不可预测的交互式需求中保持昂贵基础设施的可用性。
"英伟达现在公开围绕推理作为独特的系统问题重新设计加速计算,而不是假装同一架构可以优雅地处理从训练到长上下文、交互式、智能体推理的所有事情,"Gogia说。"这才是真正的转变。"
LPX之所以至关重要,是因为它解决了预填充-解码分离问题。预填充和解码是大语言模型推理的两个基本但截然不同的阶段。
Kimball解释说,预填充是提示阶段:输入一个问题,进行解释,并"从一堆来源收集大量数据"来创建上下文并确定正确答案。另一方面,解码(也称为自回归推理)发生在用户看到响应时。
"推理实际上是一个标题下的两个工作负载:预填充和解码,"Kimball说。"预填充是高度并行化的,解码是高度串行化的。"
GPU对预填充是最佳选择,因为它们擅长高度并行化功能;像Groq这样的加速器更适合解码,因为它们擅长高度串行化任务,其中Token生成是完全并行化的。
"解码越快,我的智能体工作流表现越好,"Kimball说。
他指出,AWS和Cerebras最近也宣布了通过Bedrock支持这种分解推理环境的合作伙伴关系,并称英伟达的公告不仅是AI经济学的转变,也是推理经济学的转变。
"我们有这些训练好的模型,推理是AI在企业中真正实现的地方,"Kimball指出。"如果这些模型不能使流程更准确、更快速、更高效,那有什么用呢?"
不过,重要的是要理解LPX并不是"通用企业技术故事",Gogia指出。
"它是对高级、延迟敏感、内存密集型推理工作负载需求的专业化基础设施响应,"他强调说,"IT领导者不应被英伟达的性能框架迷惑。"
每个IT领导者应该问的第一个问题是"极其简单的":他们的工作负载真的需要这种级别的基础设施吗?
因为实际上,大多数企业不需要万亿参数推理和百万Token上下文作为默认运营模式。许多企业仍在努力管理较小规模的生成式AI部署,更不用说工业规模的智能体系统了。
他指出,企业在AI下一阶段的更大突破将来自更好的模型路由、缓存、软件优化、内存管理、工作流重新设计和推理遥测,而不是"直接跳到最先进的机架规模架构"。
另一个重要考虑是内部工作负载经济学:应用程序每个有用Token的成本是多少?当上下文扩展、用户增加或智能体开始链接更多推理步骤时会发生什么?有多少基础设施真正得到了利用?
"这些才是真正的问题,因为AI基础设施越来越关注'有效输出',而不仅仅是吞吐量,"Gogia说。
此外,他指出,IT领导者应该将内存视为"战略约束"。长上下文和KV-cache增长不会消失,虽然英伟达对此的"巧妙"回答是分层、外部化上下文内存和跨机架协调,但这使得架构决策更加复杂。
此外,Gogia指出,功耗和冷却必须被视为一级变量,领导者必须密切关注生态系统成熟度和锁定问题。英伟达试图不仅拥有硅层,还要拥有系统设计、编排和存储分层,同时主导围绕高级Token的经济叙述。
这使得软件可移植性和生态系统灵活性至关重要。"下一阶段的赢家不会是那些简单购买更多AI基础设施的组织,"Gogia说。"而是那些确切知道高级推理在哪里重要、在哪里不重要,以及如何管理这种差异的组织。"
Q&A
Q1:Groq 3 LPX推理加速器有什么特点?
A:Groq 3 LPX是英伟达发布的推理加速器,专门针对万亿参数模型和百万Token上下文优化。它与Vera Rubin GPU结合使用,可以实现每兆瓦最高35倍的推理吞吐量提升和最高10倍的收入机会增长,主要用于处理延迟敏感的解码任务。
Q2:为什么英伟达要区分训练和推理计算?
A:训练和推理对基础设施的要求完全不同。训练是"忘记预算、忘记功耗,尽快训练好模型"的思维方式,而推理是AI驱动应用的持续性能表现。推理需要处理更多的延迟敏感任务、内存管理和成本控制,因此需要专门的架构设计。
Q3:企业是否需要立即采用LPX技术?
A:不一定。专家建议企业首先评估是否真正需要万亿参数推理和百万Token上下文。大多数企业仍在努力管理较小规模的生成式AI部署,更大的突破可能来自更好的模型路由、缓存优化、软件优化等,而非直接跳到最先进的机架规模架构。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。