英伟达Groq 3推出，AI推理时代或将到来

英伟达CEO黄仁勋在GTC大会上发布了全新Vera Rubin芯片系列，其中包括专为AI推理设计的Nvidia Groq 3语言处理单元。该芯片基于英伟达去年以200亿美元收购的Groq公司技术，采用SRAM内存集成设计，实现极低延迟的推理计算。与传统GPU不同，Groq 3优化了数据流处理，内存带宽达150TB/s，是Rubin GPU的7倍，标志着AI从模型训练向大规模应用推理的重要转变。

在本周举行的英伟达GTC大会上，超过30000人汇聚加利福尼亚州圣何塞，参加这场被誉为"AI超级碗"的盛会。英伟达首席执行官黄仁勋在主题演讲中发布了新一代Vera Rubin芯片系列，其中最引人注目的是英伟达首次专门针对AI推理设计的芯片。英伟达Groq 3语言处理单元(LPU)融合了英伟达去年圣诞夜以200亿美元从初创公司Groq获得授权的知识产权。

"AI终于能够进行生产性工作，因此推理的转折点已经到来，"黄仁勋向观众表示。"AI现在必须思考。为了思考，它必须进行推理。AI现在必须行动；为了行动，它必须进行推理。"

训练与推理的计算要求大相径庭

训练和推理任务具有不同的计算要求。训练可以同时处理大量数据，可能需要数周时间，而推理必须在用户查询到来时立即运行。与训练不同，推理不需要运行昂贵的反向传播算法。对于推理而言，最重要的是低延迟——用户期望聊天机器人能够快速响应，对于思考或推理模型，推理会在用户看到输出之前运行多次。

过去几年中，专门针对推理的芯片初创公司经历了一种寒武纪大爆发，不同公司探索着加速这一任务的独特方法。这些初创公司包括采用数字内存计算的D-matrix、使用Transformer推理专用ASIC的Etched、采用神经形态芯片的RainAI、使用模拟内存计算的EnCharge、通过对数数学提高AI计算效率的Tensordyne、硬件优化张量运算而非向量矩阵乘法的FuriosaAI等。

去年底，当英伟达宣布与Groq达成协议时，看起来英伟达已经从众多推理芯片中选中了一个赢家。英伟达Groq 3 LPU的发布仅仅在两个半月后就实现了，突显了不断增长的推理市场的紧迫性。

Groq的创新架构设计

Groq加速推理的方法依赖于在芯片上交错排列处理单元和内存单元。它不依赖于位于GPU旁边的高带宽内存(HBM)，而是倚重集成在处理器内部的SRAM内存。这种设计大大简化了数据通过芯片的流动，使其能够以流线型的线性方式进行。

"数据实际上直接通过SRAM流动，"Mark Heaps在2024年超级计算大会上表示。Heaps当时是Groq的首席技术布道师，现在是英伟达的开发者营销总监。"当你观察多核GPU时，许多指令命令需要发送到芯片外，进入内存然后再返回。我们没有这个问题。一切都按线性顺序通过。"

使用SRAM允许线性数据流以极快的速度进行，从而实现推理应用所需的低延迟。"LPU严格针对极低延迟的token生成进行优化，"英伟达超大规模和高性能计算副总裁兼总经理Ian Buck说道。

将Rubin GPU和Groq 3 LPU并排比较突显了两者的差异。Rubin GPU可访问高达288GB的HBM，能够进行每秒50千万亿次4位浮点运算。Groq 3 LPU仅包含500MB的SRAM内存，能够进行每秒1.2千万亿次8位运算。另一方面，虽然Rubin GPU的内存带宽为每秒22TB，但Groq 3 LPU以150TB/s的速度快了七倍。这种精简、专注速度的设计使LPU在推理方面表现出色。

推理分解技术的应用

新推理芯片凸显了AI采用的持续趋势，这将计算负荷从仅仅构建更大模型转向实际大规模使用这些模型。"英伟达的公告验证了基于SRAM架构对大规模推理的重要性，而没有人比d-Matrix将SRAM密度推得更远，"d-Matrix首席执行官Sid Sheth表示。他认为数据中心客户将需要各种处理器来进行推理。"获胜的系统将结合不同类型的硅芯片，并能够轻松融入与GPU并存的现有数据中心。"

仅推理芯片可能不是唯一的解决方案。上周晚些时候，亚马逊云服务表示将在其数据中心部署一种新型推理系统。该系统结合了AWS的Tranium AI加速器和Cerebras Systems的第三代计算机CS-3，后者建立在有史以来最大的单芯片基础上。这种双部分系统旨在利用一种称为推理分解的技术。它将推理分为两部分——处理提示(称为预填充)和生成输出(称为解码)。预填充本质上是并行的，计算密集型的，不需要太多内存带宽。而解码是一个更加串行的过程，需要大量内存带宽。Cerebras通过在其芯片上构建超过44GB的SRAM并通过21PB/s网络连接来最大化内存带宽问题的解决。

英伟达也打算在其新的组合计算托盘英伟达Groq 3 LPX中利用推理分解。每个托盘将容纳8个Groq 3 LPU和一个Vera Rubin，后者将Rubin GPU与Vera CPU配对。预填充和解码中计算密集型的部分在Vera Rubin上完成，而最后部分在Groq 3 LPU上完成，充分利用每个芯片的优势。"我们现在正在批量生产，"黄仁勋表示。

Q&A

Q1：英伟达Groq 3是什么？它与普通GPU有什么不同？

A：英伟达Groq 3是专门为AI推理设计的语言处理单元(LPU)，融合了从Groq公司获得授权的技术。与普通GPU不同，它使用集成在处理器内部的SRAM内存而非高带宽内存，采用线性数据流设计，内存带宽达150TB/s，比Rubin GPU快七倍，专门针对低延迟token生成优化。

Q2：为什么AI推理需要专门的芯片？

A：因为训练和推理的计算要求完全不同。训练可以处理大量数据并花费数周时间，而推理必须在用户查询时立即响应。推理最重要的是低延迟——用户期望快速响应，特别是对于思考或推理模型，推理会在用户看到输出前运行多次，因此需要专门优化的芯片架构。

Q3：什么是推理分解技术？

A：推理分解是将推理过程分为两部分的技术：预填充和解码。预填充处理用户提示，是并行的、计算密集型的过程；解码生成输出，是串行过程，需要大量内存带宽。英伟达Groq 3 LPX结合了GPU和LPU，在GPU上完成预填充和计算密集部分，在LPU上完成最终解码，充分利用各自优势。

来源：Spectrum

0赞

好文章，需要你的鼓励

英伟达Groq 3推出，AI推理时代或将到来

来源：Spectrum

2026

03/17

14:52

分享

点赞

Glean年收入突破3亿美元，削减AI成本成核心卖点

蓝色起源"新格伦"火箭在佛罗里达测试中发生爆炸

智能体AI正在重塑企业架构与Token经济学

堪培拉理工学院如何借助技术革新重塑课堂教学体验

Gemma 4携手Arm：优化端侧AI，加速移动应用体验

制药公司与初创企业如何携手推动AI落地

《星球大战》导演盛赞生成式AI：电影制作的革命性工具

Salesforce借助Informatica布局企业级无头数据管理架构

几乎所有M5 MacBook Air配置现在都降价近200美元

大模型评测风向变了，Testin云测如何构建企业级AI质量标尺？

因民事养老金管理失误，英国政府拒绝向Capita授予5.63亿英镑合同

YouTube提升AI生成视频标签的显示效果

英伟达欲端到端掌控AI数据中心全栈方案

英伟达押注OpenClaw并添加安全层，详解NemoClaw工作原理

IBM与英伟达深化合作 解决AI数据管理难题

银行面临AI扩展困境：传统技术吞噬IT预算

Palantir与英伟达合作简化AI数据中心部署

思科携手英伟达扩展Secure AI Factory解决方案

迪士尼与英伟达合作推出智能机器人雪宝

英伟达正在开发太空AI数据中心专用计算机

英伟达DLSS 5运用生成式AI提升游戏画质真实感

Memories AI构建可穿戴设备和机器人视觉记忆层

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

IBM与英伟达深化合作解决AI数据管理难题