推理计算给AI芯片初创企业带来新的突围机会

随着AI应用重心从模型训练转向推理部署，芯片初创企业迎来新的市场机会。推理工作负载多样化，使不同架构各有用武之地。英伟达收购Groq、AWS推出混合计算平台、英特尔发布参考设计，均采用不同芯片分别处理预填充与解码任务。光学推理芯片初创公司Lumai也披露了其混合光电架构方案，目标是以极低功耗实现超高AI性能。与此同时，Tenstorrent则坚持通用架构路线，对碎片化推理方案持保留态度。

AI的普及正在迎来一个重要转折点——行业焦点正从训练新模型逐步转向模型的推理部署。对于那些试图从英伟达手中争夺市场份额的AI芯片初创企业来说，机会就在眼前，错过便再难追回。

与模型训练相比，推理计算的工作负载更加多元，这为芯片初创企业提供了差异化竞争的空间。大批量推理所需的计算、内存与带宽配比，与AI助手或代码智能体的需求截然不同。

正因如此，推理计算正变得日益异构化——某些特定场景可能更适合GPU，而另一些则更适合专用硬件。

英伟达去年12月以约200亿美元收购Groq便是一个典型案例。这家初创公司的芯片架构以SRAM为核心，在规模足够大的情况下，其LPU能够以远超GPU的速度生成Token。然而，有限的计算容量与较旧的芯片技术使其扩展效率难以提升。

英伟达的解决方案是：将推理流水线中计算密集型的预填充（prefill）环节迁移至自家GPU，同时保留对带宽要求较高的解码（decode）操作运行在新购入的LPU上。

这种组合并非英伟达专属。就在GTC大会结束后的一周，AWS宣布推出自己的分解式计算平台，采用自研Trainium加速器负责预填充，并引入Cerebras Systems"餐盘大小"的晶圆级加速器承担解码任务。

连英特尔也加入了这场竞争，公布了一项参考设计方案：使用GPU（据推测即去年秋季曾透露的那款）处理预填充，AI芯片初创公司SambaNova的新款RDU则负责解码部分。

目前，大多数AI芯片初创企业的胜出主要集中在解码环节。SRAM虽然容量有限，但速度极快。因此，在芯片数量充足的前提下——或者像Cerebras那样依靠足够大的单颗芯片——这类架构非常适合加速解码操作。不过，初创企业的布局并不止于此。

本周，Lumai详细介绍了其光学推理加速器。该产品以光而非电子来执行矩阵乘法运算，这也是绝大多数机器学习工作负载的核心操作，其功耗仅为纯数字架构的一小部分。Lumai预计，下一代Iris Tetra系统将在2029年实现在10千瓦功耗预算内达到ExaOPS级别的AI运算性能。

从技术层面看，该芯片采用混合电光架构，但推理过程中的主要计算任务由光学张量核心承担。

目前，该公司将这款芯片定位为GPU的独立替代方案，适用于计算密集型推理场景，如批量处理任务。长远来看，公司还计划将光学加速器用于预填充处理器。

尽管该架构尚处早期阶段，目前仅能运行Llama 3.1 8B或70B等十亿参数级模型，但进展已足够成熟，这家总部位于英国的初创企业已向新兴云服务商和超大规模云服务商开放评估。

然而，并非所有AI芯片初创企业都认可"预填充+解码分别用不同芯片"的路线。本周早些时候，Tenstorrent发布了基于RISC-V架构的Galaxy Blackhole计算平台，公司CEO吉姆·凯勒对分解式推理的方案明确表示不认同。

"业内每家公司都在搞加速器套加速器的游戏。CPU运行代码，GPU加速CPU，TPU加速GPU，LPU再加速TPU，如此循环。这套逻辑导致方案越来越复杂，而且极有可能无法适应AI模型和应用场景的变化。在Tenstorrent，我们认为更通用、更简洁的方案才是正确方向。"他在声明中如是说。

Q&A

Q1：推理计算和训练计算有什么区别？为什么推理对AI芯片初创企业更重要？

A：训练是让模型从数据中学习，需要大规模统一的计算资源；推理则是将训练好的模型部署后对外提供服务，工作负载更加多样化。正因推理场景复杂多变，不同任务对计算、内存、带宽的需求各不相同，这为芯片初创企业提供了差异化突破口，不必与英伟达在同一赛道上正面竞争。

Q2：Lumai的光学推理加速器和普通GPU相比有什么优势？

A：Lumai的光学推理加速器使用光而非电子进行矩阵乘法运算，功耗远低于纯数字架构的GPU。其下一代Iris Tetra系统预计在2029年实现10千瓦功耗下达到ExaOPS级AI性能。目前该芯片已可运行Llama 3.1 8B/70B等模型，并已向云服务商开放评估，适合批量处理等计算密集型推理场景。

Q3：Tenstorrent的Galaxy Blackhole平台和英伟达、AWS的分解式推理方案有什么不同？

A：英伟达和AWS采用的是分解式推理方案，即用不同芯片分别处理预填充和解码两个阶段。而Tenstorrent的Galaxy Blackhole平台基于RISC-V架构，CEO吉姆·凯勒明确反对这种"加速器套加速器"的复杂方案，认为其兼容性差、难以适应AI模型的快速变化，主张用更通用、更简洁的单一架构解决推理问题。

来源：The Register

0赞

好文章，需要你的鼓励

推理计算给AI芯片初创企业带来新的突围机会

来源：The Register

2026

05/07

12:09

分享

点赞

三星Health应用迎来AI升级，Galaxy Watch 9发布前夕更新提前揭晓

Meta智能眼镜被曝含"人脸识别"追踪代码，隐私风险引发警示

Gemini企业智能体平台的智能体RAG如何实现可靠响应

麻省理工学院AI与计算研讨会：技术进步中不可或缺的人文因素

亚马逊全新数据中心路由架构降低AWS网络能耗40%

iOS 27即将发布，多款iPhone应用将迎来全新设计升级

连接性已成为与计算和存储同等重要的AI基础设施核心要素

开发者仍在等待Meta最新AI模型的API访问权限

迈向Token经济时代，F5以“AI赋能交付”筑基智能新生态

米拉·穆拉提重返公众视野，谨慎发声

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

在AI时代，人类智能是否仍然独一无二？

Uber计划将数百万名司机变成自动驾驶数据采集网络

AI分析发现霍尔拜因肖像中的神秘人物或为安妮·博林

Atlassian大举抢占市场，ServiceNow腹背受敌

这个AI知道答案，却不懂问题的含义

按量计费模式成本飙升？教你搭建本地AI编程智能体

AWS三大AI战略重磅发布：OpenAI合作升级、智能体矩阵扩张、个人助手登场

SAS将AI治理置于智能体战略核心位置

研究发现：注重用户情感的AI模型更容易出错

Meta收购机器人初创公司，加速人形AI布局

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: