在本周举行的英伟达GTC大会上,超过30000人汇聚加利福尼亚州圣何塞,参加这场被誉为"AI超级碗"的盛会。英伟达首席执行官黄仁勋在主题演讲中发布了新一代Vera Rubin芯片系列,其中最引人注目的是英伟达首次专门针对AI推理设计的芯片。英伟达Groq 3语言处理单元(LPU)融合了英伟达去年圣诞夜以200亿美元从初创公司Groq获得授权的知识产权。
"AI终于能够进行生产性工作,因此推理的转折点已经到来,"黄仁勋向观众表示。"AI现在必须思考。为了思考,它必须进行推理。AI现在必须行动;为了行动,它必须进行推理。"
训练与推理的计算要求大相径庭
训练和推理任务具有不同的计算要求。训练可以同时处理大量数据,可能需要数周时间,而推理必须在用户查询到来时立即运行。与训练不同,推理不需要运行昂贵的反向传播算法。对于推理而言,最重要的是低延迟——用户期望聊天机器人能够快速响应,对于思考或推理模型,推理会在用户看到输出之前运行多次。
过去几年中,专门针对推理的芯片初创公司经历了一种寒武纪大爆发,不同公司探索着加速这一任务的独特方法。这些初创公司包括采用数字内存计算的D-matrix、使用Transformer推理专用ASIC的Etched、采用神经形态芯片的RainAI、使用模拟内存计算的EnCharge、通过对数数学提高AI计算效率的Tensordyne、硬件优化张量运算而非向量矩阵乘法的FuriosaAI等。
去年底,当英伟达宣布与Groq达成协议时,看起来英伟达已经从众多推理芯片中选中了一个赢家。英伟达Groq 3 LPU的发布仅仅在两个半月后就实现了,突显了不断增长的推理市场的紧迫性。
Groq的创新架构设计
Groq加速推理的方法依赖于在芯片上交错排列处理单元和内存单元。它不依赖于位于GPU旁边的高带宽内存(HBM),而是倚重集成在处理器内部的SRAM内存。这种设计大大简化了数据通过芯片的流动,使其能够以流线型的线性方式进行。
"数据实际上直接通过SRAM流动,"Mark Heaps在2024年超级计算大会上表示。Heaps当时是Groq的首席技术布道师,现在是英伟达的开发者营销总监。"当你观察多核GPU时,许多指令命令需要发送到芯片外,进入内存然后再返回。我们没有这个问题。一切都按线性顺序通过。"
使用SRAM允许线性数据流以极快的速度进行,从而实现推理应用所需的低延迟。"LPU严格针对极低延迟的token生成进行优化,"英伟达超大规模和高性能计算副总裁兼总经理Ian Buck说道。
将Rubin GPU和Groq 3 LPU并排比较突显了两者的差异。Rubin GPU可访问高达288GB的HBM,能够进行每秒50千万亿次4位浮点运算。Groq 3 LPU仅包含500MB的SRAM内存,能够进行每秒1.2千万亿次8位运算。另一方面,虽然Rubin GPU的内存带宽为每秒22TB,但Groq 3 LPU以150TB/s的速度快了七倍。这种精简、专注速度的设计使LPU在推理方面表现出色。
推理分解技术的应用
新推理芯片凸显了AI采用的持续趋势,这将计算负荷从仅仅构建更大模型转向实际大规模使用这些模型。"英伟达的公告验证了基于SRAM架构对大规模推理的重要性,而没有人比d-Matrix将SRAM密度推得更远,"d-Matrix首席执行官Sid Sheth表示。他认为数据中心客户将需要各种处理器来进行推理。"获胜的系统将结合不同类型的硅芯片,并能够轻松融入与GPU并存的现有数据中心。"
仅推理芯片可能不是唯一的解决方案。上周晚些时候,亚马逊云服务表示将在其数据中心部署一种新型推理系统。该系统结合了AWS的Tranium AI加速器和Cerebras Systems的第三代计算机CS-3,后者建立在有史以来最大的单芯片基础上。这种双部分系统旨在利用一种称为推理分解的技术。它将推理分为两部分——处理提示(称为预填充)和生成输出(称为解码)。预填充本质上是并行的,计算密集型的,不需要太多内存带宽。而解码是一个更加串行的过程,需要大量内存带宽。Cerebras通过在其芯片上构建超过44GB的SRAM并通过21PB/s网络连接来最大化内存带宽问题的解决。
英伟达也打算在其新的组合计算托盘英伟达Groq 3 LPX中利用推理分解。每个托盘将容纳8个Groq 3 LPU和一个Vera Rubin,后者将Rubin GPU与Vera CPU配对。预填充和解码中计算密集型的部分在Vera Rubin上完成,而最后部分在Groq 3 LPU上完成,充分利用每个芯片的优势。"我们现在正在批量生产,"黄仁勋表示。
Q&A
Q1:英伟达Groq 3是什么?它与普通GPU有什么不同?
A:英伟达Groq 3是专门为AI推理设计的语言处理单元(LPU),融合了从Groq公司获得授权的技术。与普通GPU不同,它使用集成在处理器内部的SRAM内存而非高带宽内存,采用线性数据流设计,内存带宽达150TB/s,比Rubin GPU快七倍,专门针对低延迟token生成优化。
Q2:为什么AI推理需要专门的芯片?
A:因为训练和推理的计算要求完全不同。训练可以处理大量数据并花费数周时间,而推理必须在用户查询时立即响应。推理最重要的是低延迟——用户期望快速响应,特别是对于思考或推理模型,推理会在用户看到输出前运行多次,因此需要专门优化的芯片架构。
Q3:什么是推理分解技术?
A:推理分解是将推理过程分为两部分的技术:预填充和解码。预填充处理用户提示,是并行的、计算密集型的过程;解码生成输出,是串行过程,需要大量内存带宽。英伟达Groq 3 LPX结合了GPU和LPU,在GPU上完成预填充和计算密集部分,在LPU上完成最终解码,充分利用各自优势。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。