英伟达Groq 3推出,AI推理时代或将到来

英伟达CEO黄仁勋在GTC大会上发布了全新Vera Rubin芯片系列,其中包括专为AI推理设计的Nvidia Groq 3语言处理单元。该芯片基于英伟达去年以200亿美元收购的Groq公司技术,采用SRAM内存集成设计,实现极低延迟的推理计算。与传统GPU不同,Groq 3优化了数据流处理,内存带宽达150TB/s,是Rubin GPU的7倍,标志着AI从模型训练向大规模应用推理的重要转变。

在本周举行的英伟达GTC大会上,超过30000人汇聚加利福尼亚州圣何塞,参加这场被誉为"AI超级碗"的盛会。英伟达首席执行官黄仁勋在主题演讲中发布了新一代Vera Rubin芯片系列,其中最引人注目的是英伟达首次专门针对AI推理设计的芯片。英伟达Groq 3语言处理单元(LPU)融合了英伟达去年圣诞夜以200亿美元从初创公司Groq获得授权的知识产权。

"AI终于能够进行生产性工作,因此推理的转折点已经到来,"黄仁勋向观众表示。"AI现在必须思考。为了思考,它必须进行推理。AI现在必须行动;为了行动,它必须进行推理。"

训练与推理的计算要求大相径庭

训练和推理任务具有不同的计算要求。训练可以同时处理大量数据,可能需要数周时间,而推理必须在用户查询到来时立即运行。与训练不同,推理不需要运行昂贵的反向传播算法。对于推理而言,最重要的是低延迟——用户期望聊天机器人能够快速响应,对于思考或推理模型,推理会在用户看到输出之前运行多次。

过去几年中,专门针对推理的芯片初创公司经历了一种寒武纪大爆发,不同公司探索着加速这一任务的独特方法。这些初创公司包括采用数字内存计算的D-matrix、使用Transformer推理专用ASIC的Etched、采用神经形态芯片的RainAI、使用模拟内存计算的EnCharge、通过对数数学提高AI计算效率的Tensordyne、硬件优化张量运算而非向量矩阵乘法的FuriosaAI等。

去年底,当英伟达宣布与Groq达成协议时,看起来英伟达已经从众多推理芯片中选中了一个赢家。英伟达Groq 3 LPU的发布仅仅在两个半月后就实现了,突显了不断增长的推理市场的紧迫性。

Groq的创新架构设计

Groq加速推理的方法依赖于在芯片上交错排列处理单元和内存单元。它不依赖于位于GPU旁边的高带宽内存(HBM),而是倚重集成在处理器内部的SRAM内存。这种设计大大简化了数据通过芯片的流动,使其能够以流线型的线性方式进行。

"数据实际上直接通过SRAM流动,"Mark Heaps在2024年超级计算大会上表示。Heaps当时是Groq的首席技术布道师,现在是英伟达的开发者营销总监。"当你观察多核GPU时,许多指令命令需要发送到芯片外,进入内存然后再返回。我们没有这个问题。一切都按线性顺序通过。"

使用SRAM允许线性数据流以极快的速度进行,从而实现推理应用所需的低延迟。"LPU严格针对极低延迟的token生成进行优化,"英伟达超大规模和高性能计算副总裁兼总经理Ian Buck说道。

将Rubin GPU和Groq 3 LPU并排比较突显了两者的差异。Rubin GPU可访问高达288GB的HBM,能够进行每秒50千万亿次4位浮点运算。Groq 3 LPU仅包含500MB的SRAM内存,能够进行每秒1.2千万亿次8位运算。另一方面,虽然Rubin GPU的内存带宽为每秒22TB,但Groq 3 LPU以150TB/s的速度快了七倍。这种精简、专注速度的设计使LPU在推理方面表现出色。

推理分解技术的应用

新推理芯片凸显了AI采用的持续趋势,这将计算负荷从仅仅构建更大模型转向实际大规模使用这些模型。"英伟达的公告验证了基于SRAM架构对大规模推理的重要性,而没有人比d-Matrix将SRAM密度推得更远,"d-Matrix首席执行官Sid Sheth表示。他认为数据中心客户将需要各种处理器来进行推理。"获胜的系统将结合不同类型的硅芯片,并能够轻松融入与GPU并存的现有数据中心。"

仅推理芯片可能不是唯一的解决方案。上周晚些时候,亚马逊云服务表示将在其数据中心部署一种新型推理系统。该系统结合了AWS的Tranium AI加速器和Cerebras Systems的第三代计算机CS-3,后者建立在有史以来最大的单芯片基础上。这种双部分系统旨在利用一种称为推理分解的技术。它将推理分为两部分——处理提示(称为预填充)和生成输出(称为解码)。预填充本质上是并行的,计算密集型的,不需要太多内存带宽。而解码是一个更加串行的过程,需要大量内存带宽。Cerebras通过在其芯片上构建超过44GB的SRAM并通过21PB/s网络连接来最大化内存带宽问题的解决。

英伟达也打算在其新的组合计算托盘英伟达Groq 3 LPX中利用推理分解。每个托盘将容纳8个Groq 3 LPU和一个Vera Rubin,后者将Rubin GPU与Vera CPU配对。预填充和解码中计算密集型的部分在Vera Rubin上完成,而最后部分在Groq 3 LPU上完成,充分利用每个芯片的优势。"我们现在正在批量生产,"黄仁勋表示。

Q&A

Q1:英伟达Groq 3是什么?它与普通GPU有什么不同?

A:英伟达Groq 3是专门为AI推理设计的语言处理单元(LPU),融合了从Groq公司获得授权的技术。与普通GPU不同,它使用集成在处理器内部的SRAM内存而非高带宽内存,采用线性数据流设计,内存带宽达150TB/s,比Rubin GPU快七倍,专门针对低延迟token生成优化。

Q2:为什么AI推理需要专门的芯片?

A:因为训练和推理的计算要求完全不同。训练可以处理大量数据并花费数周时间,而推理必须在用户查询时立即响应。推理最重要的是低延迟——用户期望快速响应,特别是对于思考或推理模型,推理会在用户看到输出前运行多次,因此需要专门优化的芯片架构。

Q3:什么是推理分解技术?

A:推理分解是将推理过程分为两部分的技术:预填充和解码。预填充处理用户提示,是并行的、计算密集型的过程;解码生成输出,是串行过程,需要大量内存带宽。英伟达Groq 3 LPX结合了GPU和LPU,在GPU上完成预填充和计算密集部分,在LPU上完成最终解码,充分利用各自优势。

来源:Spectrum

0赞

好文章,需要你的鼓励

2026

03/17

14:52

分享

点赞

邮件订阅