今年夏天,AI芯片创业公司Groq以69亿美元的估值融资7.5亿美元。仅仅三个月后,英伟达在假期期间投入了近三倍的资金来许可其技术并挖走其人才。
在随后的几天里,网络上的AI专家们疯狂猜测英伟达如何能够证明花费200亿美元获得Groq的技术和人才是合理的。
专家们认为英伟达知道一些我们不知道的事情。理论范围很广,从这笔交易表明英伟达打算用SRAM取代HBM,到从三星获得额外代工产能的策略,或试图打压潜在竞争对手。有些理论比其他理论更站得住脚,我们当然也有自己的一些看法。
目前我们所知道的情况
英伟达支付200亿美元非独家许可Groq的知识产权,其中包括其语言处理单元(LPU)和相关软件库。
Groq的LPU构成了其高性能推理即服务产品的基础,在交易完成后它将保留并继续不间断运营该业务。
这种安排明显是为了避免监管审查。英伟达并非在收购Groq,而是在许可其技术。不过...它实际上完全是在收购Groq。
除此之外,如何描述一项让Groq首席执行官Jonathan Ross和总裁Sunny Madra以及大部分工程人才都转移到英伟达的交易呢?
当然,Groq在技术上仍然作为一家独立公司存在,由Simon Edwards作为新任首席执行官掌舵,但随着大部分人才的流失,很难看出这家芯片创业公司如何能长期生存。
因此,英伟达只是将竞争对手从董事会中除名的论点是成立的。鉴于此举可能引发反垄断诉讼,这一举措是否值得200亿美元是另一回事。
一定是为了SRAM,对吧
关于英伟达动机的一个突出理论是,Groq的LPU使用静态随机存取存储器(SRAM),其速度比当今GPU中的高带宽存储器(HBM)快几个数量级。
单个HBM3e堆栈今天可以实现每模块约1TB/s的存储器带宽和每GPU 8TB/s。Groq LPU中的SRAM可以快10到80倍。
由于大语言模型推理主要受存储器带宽限制,Groq可以实现惊人的快速Token生成率。在Llama 3.3 70B中,Artificial Analysis的基准测试人员报告说,Groq的芯片可以输出350 tok/s。在运行专家混合模型(如gpt-oss 120B)时,性能甚至更好,芯片达到了465 tok/s。
我们也正处于全球内存短缺的中期,对HBM的需求从未如此之高。因此,我们理解为什么有些人可能会看这笔交易并认为Groq可以帮助英伟达应对迫在眉睫的内存危机。
最简单的答案往往是正确的答案——只是这次不是。
很抱歉必须告诉你这一点,但SRAM并没有什么特别之处。它基本上存在于每个现代处理器中,包括英伟达的芯片。
SRAM也有一个相当明显的缺点。它在空间效率方面不是你所说的那种。我们谈论的是每个芯片最多几百兆字节,相比之下,12层高的HBM3e堆栈为36GB,每个GPU总计288GB。
Groq的LPU每个只有230MB的SRAM,这意味着你需要数百甚至数千个才能运行一个适度的大语言模型。在16位精度下,你需要140GB的内存来保存模型权重,每128,000个Token序列还需要额外的40GB。
Groq需要574个LPU使用高速互连结构拼接在一起才能运行Llama 70B。
你可以通过构建更大的芯片来解决这个问题——Cerebras的每个WSE-3晶圆片都具有超过40GB的板载SRAM,但这些芯片有餐盘大小,消耗23千瓦。无论如何,Groq没有走这条路线。
可以说,如果英伟达想要制造一个使用SRAM而不是HBM的芯片,它不需要购买Groq来做到这一点。
跟随数据流
那么,英伟达向Groq投钱是为了什么?
我们最好的猜测是它真的是为了Groq的"流水线架构"。这本质上是一种可编程数据流设计,专门用于加速推理期间计算的线性代数计算。
今天的大多数处理器都使用冯·诺依曼架构。指令从内存中获取、解码、执行,然后写入寄存器或存储在内存中。现代实现引入了分支预测等功能,但原理基本相同。
数据流基于不同的原理工作。数据流架构不是一堆加载-存储操作,而是在数据流经芯片时对其进行处理。
正如Groq所解释的,这些数据传送带"在芯片的SIMD(单指令/多数据)功能单元之间移动指令和数据"。
"在装配过程的每个步骤中,功能单元通过传送带接收指令。指令告诉功能单元应该去哪里获取输入数据(哪条传送带),应该对该数据执行哪个功能,以及应该将输出数据放在哪里。"
根据Groq的说法,这种架构有效地消除了拖累GPU的瓶颈,因为这意味着LPU永远不会等待内存或计算跟上。
Groq可以通过LPU和它们之间实现这一点,这是个好消息,因为Groq的LPU本身并不那么强大。在纸面上,它们实现了BF16性能,大致与RTX 3090或L40S的INT8性能相当。但是,请记住这是理想情况下的峰值FLOPS。理论上,数据流架构应该能够在相同功耗下实现更好的实际性能。
值得指出的是,数据流架构并不局限于以SRAM为中心的设计。例如,NextSilicon的数据流架构使用HBM。Groq选择了仅SRAM设计,因为它保持了事情的简单,但没有理由英伟达不能基于Groq的IP构建使用SRAM、HBM或GDDR的数据流加速器。
那么,如果数据流这么好,为什么它不更常见呢?因为要做对它是极其困难的。但是,Groq已经设法使其工作,至少对于推理而言。
正如Ai2的Tim Dettmers最近所说,像英伟达这样的芯片制造商正在迅速耗尽他们可以拉动的杠杆来提升芯片性能。数据流为英伟达提供了在寻求额外速度时可以应用的新技术,与Groq的交易意味着Jensen Huang的公司在将其商业化方面处于更好的位置。
推理优化的计算堆栈
Groq还为英伟达提供了推理优化的计算架构,这是它一直严重缺乏的。不过,它的适用范围有点神秘。
英伟达的大多数"推理优化"芯片,如H200或B300,与它们的"主流"兄弟芯片在根本上没有什么不同。事实上,H100和H200之间的唯一区别是后者使用了更快、容量更高的HBM3e,这恰好有利于推理密集型工作负载。
提醒一下,大语言模型推理可以分为两个阶段:计算密集型的预填充阶段(在此期间处理提示)和存储器带宽密集型的解码阶段(在此期间模型生成输出Token)。
这种情况在2026年英伟达的Rubin一代芯片中正在发生变化。9月份宣布的Rubin CPX专门设计用于加速推理管道的计算密集型预填充阶段,释放其HBM封装的Vera Rubin超级芯片来处理解码。
这种分解架构最大限度地减少了资源争用,有助于提高利用率和吞吐量。
Groq的LPU在设计上针对推理进行了优化,但它们没有足够的SRAM来成为非常好的解码加速器。然而,它们可能作为推测性解码部件很有趣。
如果你不熟悉,推测性解码是一种使用小型"草案"模型来预测较大模型输出的技术。当这些预测正确时,系统性能可以翻倍或三倍,从而降低每Token成本。
这些推测性草案模型通常相当小,通常最多消耗几十亿个参数,使得Groq的现有芯片设计对于此类设计是合理的。
我们需要专用的推测性解码加速器吗?当然,为什么不呢。它值200亿美元吗?这取决于你如何衡量它。与总估值约为200亿美元的上市公司(如惠普公司或Figma)相比,这可能看起来很高。但对于英伟达来说,200亿美元是一个相对负担得起的金额——仅上个季度它就录得230亿美元的运营现金流。最终,这意味着英伟达有更多的芯片和配件可以销售。
代工厂多元化怎么样
我们见过的最不可能的观点是Groq以某种方式为英伟达开辟了额外的代工产能的建议。
Groq目前使用GlobalFoundries制造其芯片,并计划在三星的4纳米工艺技术上构建其下一代部件。相比之下,英伟达几乎所有的制造都在台积电进行,并且严重依赖台湾巨头的先进封装技术。
这个理论的问题在于它实际上没有任何意义。英伟达并非不能去三星代工其芯片。事实上,英伟达以前就在三星代工过芯片——这家韩国巨头制造了英伟达Ampere一代的大部分产品。英伟达需要台积电的先进封装技术来制造A100等某些部件,但它不需要这家台湾公司来制造Rubin CPX。三星或英特尔可能都能胜任这项工作。
所有这些都需要时间,许可Groq的IP和雇用其团队并不能改变这一点。
现实是英伟达可能不会对Groq当前一代的LPU做任何事情。Jensen可能只是在下长棋,正如他一直以来所做的那样。
Q&A
Q1:Groq的LPU使用SRAM相比传统GPU有什么优势?
A:Groq的LPU使用静态随机存取存储器(SRAM),速度比当今GPU中的高带宽存储器(HBM)快10到80倍。这使得Groq在大语言模型推理中能够实现惊人的Token生成速度,在Llama 3.3 70B测试中达到350 tok/s,在专家混合模型中甚至可以达到465 tok/s。
Q2:英伟达为什么要花200亿美元收购Groq而不是自己开发类似技术?
A:英伟达主要看重Groq的"流水线架构",这是一种可编程数据流设计。虽然数据流架构理论上性能更好,但要做对它是极其困难的。Groq已经成功实现了这一技术,为英伟达提供了新的性能提升技术,在芯片性能优化手段逐渐耗尽的情况下具有重要价值。
Q3:这笔收购对AI芯片市场会产生什么影响?
A:这笔交易实际上是英伟达通过许可协议变相收购了Groq的核心人才和技术,包括CEO和大部分工程团队都转移到英伟达。虽然Groq作为独立公司继续存在,但失去核心人才后长期生存能力存疑。这为英伟达提供了推理优化的计算架构,填补了其在这一领域的空白。
好文章,需要你的鼓励
VSCO今日更新VSCO Capture应用,新增视频拍摄功能。用户现可在拍摄照片和视频时应用并调整VSCO的50多种滤镜预设,包括经典胶片到现代创作风格。新版本还推出胶片颗粒滤镜,可动态控制纹理强度、大小和色彩。用户能将颗粒滤镜叠加到Film X滤镜上,结合柯达、富士和爱克发胶片风格,保存个性化胶片配方。
瑞士ETH苏黎世联邦理工学院等机构联合开发的WUSH技术,首次从数学理论层面推导出AI大模型量化压缩的最优解。该技术能根据数据特征自适应调整压缩策略,相比传统方法减少60-70%的压缩损失,实现接近零损失的模型压缩,为大模型在普通设备上的高效部署开辟了新路径。
Instagram负责人Adam Mosseri表示,AI生成内容已经占据社交媒体主导地位,预计将超越非AI内容。他认为识别AI内容的技术效果不佳,建议转而为真实媒体建立指纹识别系统,由相机制造商在拍摄时进行加密签名。Mosseri还指出,创作者应优先发布"不完美"的原始图像来证明真实性,因为精美方形图片的时代已经结束。
弗吉尼亚大学团队创建了Refer360数据集,这是首个大规模记录真实环境中人机多模态交互的数据库,涵盖室内外场景,包含1400万交互样本。同时开发的MuRes智能模块能让机器人像人类一样理解语言、手势和眼神的组合信息,显著提升了现有AI模型的理解准确度,为未来智能机器人的广泛应用奠定了重要基础。