推理计算给AI芯片初创企业带来新的突围机会

随着AI应用重心从模型训练转向推理部署,芯片初创企业迎来新的市场机会。推理工作负载多样化,使不同架构各有用武之地。英伟达收购Groq、AWS推出混合计算平台、英特尔发布参考设计,均采用不同芯片分别处理预填充与解码任务。光学推理芯片初创公司Lumai也披露了其混合光电架构方案,目标是以极低功耗实现超高AI性能。与此同时,Tenstorrent则坚持通用架构路线,对碎片化推理方案持保留态度。

AI的普及正在迎来一个重要转折点——行业焦点正从训练新模型逐步转向模型的推理部署。对于那些试图从英伟达手中争夺市场份额的AI芯片初创企业来说,机会就在眼前,错过便再难追回。

与模型训练相比,推理计算的工作负载更加多元,这为芯片初创企业提供了差异化竞争的空间。大批量推理所需的计算、内存与带宽配比,与AI助手或代码智能体的需求截然不同。

正因如此,推理计算正变得日益异构化——某些特定场景可能更适合GPU,而另一些则更适合专用硬件。

英伟达去年12月以约200亿美元收购Groq便是一个典型案例。这家初创公司的芯片架构以SRAM为核心,在规模足够大的情况下,其LPU能够以远超GPU的速度生成Token。然而,有限的计算容量与较旧的芯片技术使其扩展效率难以提升。

英伟达的解决方案是:将推理流水线中计算密集型的预填充(prefill)环节迁移至自家GPU,同时保留对带宽要求较高的解码(decode)操作运行在新购入的LPU上。

这种组合并非英伟达专属。就在GTC大会结束后的一周,AWS宣布推出自己的分解式计算平台,采用自研Trainium加速器负责预填充,并引入Cerebras Systems"餐盘大小"的晶圆级加速器承担解码任务。

连英特尔也加入了这场竞争,公布了一项参考设计方案:使用GPU(据推测即去年秋季曾透露的那款)处理预填充,AI芯片初创公司SambaNova的新款RDU则负责解码部分。

目前,大多数AI芯片初创企业的胜出主要集中在解码环节。SRAM虽然容量有限,但速度极快。因此,在芯片数量充足的前提下——或者像Cerebras那样依靠足够大的单颗芯片——这类架构非常适合加速解码操作。不过,初创企业的布局并不止于此。

本周,Lumai详细介绍了其光学推理加速器。该产品以光而非电子来执行矩阵乘法运算,这也是绝大多数机器学习工作负载的核心操作,其功耗仅为纯数字架构的一小部分。Lumai预计,下一代Iris Tetra系统将在2029年实现在10千瓦功耗预算内达到ExaOPS级别的AI运算性能。

从技术层面看,该芯片采用混合电光架构,但推理过程中的主要计算任务由光学张量核心承担。

目前,该公司将这款芯片定位为GPU的独立替代方案,适用于计算密集型推理场景,如批量处理任务。长远来看,公司还计划将光学加速器用于预填充处理器。

尽管该架构尚处早期阶段,目前仅能运行Llama 3.1 8B或70B等十亿参数级模型,但进展已足够成熟,这家总部位于英国的初创企业已向新兴云服务商和超大规模云服务商开放评估。

然而,并非所有AI芯片初创企业都认可"预填充+解码分别用不同芯片"的路线。本周早些时候,Tenstorrent发布了基于RISC-V架构的Galaxy Blackhole计算平台,公司CEO吉姆·凯勒对分解式推理的方案明确表示不认同。

"业内每家公司都在搞加速器套加速器的游戏。CPU运行代码,GPU加速CPU,TPU加速GPU,LPU再加速TPU,如此循环。这套逻辑导致方案越来越复杂,而且极有可能无法适应AI模型和应用场景的变化。在Tenstorrent,我们认为更通用、更简洁的方案才是正确方向。"他在声明中如是说。

Q&A

Q1:推理计算和训练计算有什么区别?为什么推理对AI芯片初创企业更重要?

A:训练是让模型从数据中学习,需要大规模统一的计算资源;推理则是将训练好的模型部署后对外提供服务,工作负载更加多样化。正因推理场景复杂多变,不同任务对计算、内存、带宽的需求各不相同,这为芯片初创企业提供了差异化突破口,不必与英伟达在同一赛道上正面竞争。

Q2:Lumai的光学推理加速器和普通GPU相比有什么优势?

A:Lumai的光学推理加速器使用光而非电子进行矩阵乘法运算,功耗远低于纯数字架构的GPU。其下一代Iris Tetra系统预计在2029年实现10千瓦功耗下达到ExaOPS级AI性能。目前该芯片已可运行Llama 3.1 8B/70B等模型,并已向云服务商开放评估,适合批量处理等计算密集型推理场景。

Q3:Tenstorrent的Galaxy Blackhole平台和英伟达、AWS的分解式推理方案有什么不同?

A:英伟达和AWS采用的是分解式推理方案,即用不同芯片分别处理预填充和解码两个阶段。而Tenstorrent的Galaxy Blackhole平台基于RISC-V架构,CEO吉姆·凯勒明确反对这种"加速器套加速器"的复杂方案,认为其兼容性差、难以适应AI模型的快速变化,主张用更通用、更简洁的单一架构解决推理问题。

来源:The Register

0赞

好文章,需要你的鼓励

2026

05/07

12:09

分享

点赞

邮件订阅