AI的普及正在迎来一个重要转折点——行业焦点正从训练新模型逐步转向模型的推理部署。对于那些试图从英伟达手中争夺市场份额的AI芯片初创企业来说,机会就在眼前,错过便再难追回。
与模型训练相比,推理计算的工作负载更加多元,这为芯片初创企业提供了差异化竞争的空间。大批量推理所需的计算、内存与带宽配比,与AI助手或代码智能体的需求截然不同。
正因如此,推理计算正变得日益异构化——某些特定场景可能更适合GPU,而另一些则更适合专用硬件。
英伟达去年12月以约200亿美元收购Groq便是一个典型案例。这家初创公司的芯片架构以SRAM为核心,在规模足够大的情况下,其LPU能够以远超GPU的速度生成Token。然而,有限的计算容量与较旧的芯片技术使其扩展效率难以提升。
英伟达的解决方案是:将推理流水线中计算密集型的预填充(prefill)环节迁移至自家GPU,同时保留对带宽要求较高的解码(decode)操作运行在新购入的LPU上。
这种组合并非英伟达专属。就在GTC大会结束后的一周,AWS宣布推出自己的分解式计算平台,采用自研Trainium加速器负责预填充,并引入Cerebras Systems"餐盘大小"的晶圆级加速器承担解码任务。
连英特尔也加入了这场竞争,公布了一项参考设计方案:使用GPU(据推测即去年秋季曾透露的那款)处理预填充,AI芯片初创公司SambaNova的新款RDU则负责解码部分。
目前,大多数AI芯片初创企业的胜出主要集中在解码环节。SRAM虽然容量有限,但速度极快。因此,在芯片数量充足的前提下——或者像Cerebras那样依靠足够大的单颗芯片——这类架构非常适合加速解码操作。不过,初创企业的布局并不止于此。
本周,Lumai详细介绍了其光学推理加速器。该产品以光而非电子来执行矩阵乘法运算,这也是绝大多数机器学习工作负载的核心操作,其功耗仅为纯数字架构的一小部分。Lumai预计,下一代Iris Tetra系统将在2029年实现在10千瓦功耗预算内达到ExaOPS级别的AI运算性能。
从技术层面看,该芯片采用混合电光架构,但推理过程中的主要计算任务由光学张量核心承担。
目前,该公司将这款芯片定位为GPU的独立替代方案,适用于计算密集型推理场景,如批量处理任务。长远来看,公司还计划将光学加速器用于预填充处理器。
尽管该架构尚处早期阶段,目前仅能运行Llama 3.1 8B或70B等十亿参数级模型,但进展已足够成熟,这家总部位于英国的初创企业已向新兴云服务商和超大规模云服务商开放评估。
然而,并非所有AI芯片初创企业都认可"预填充+解码分别用不同芯片"的路线。本周早些时候,Tenstorrent发布了基于RISC-V架构的Galaxy Blackhole计算平台,公司CEO吉姆·凯勒对分解式推理的方案明确表示不认同。
"业内每家公司都在搞加速器套加速器的游戏。CPU运行代码,GPU加速CPU,TPU加速GPU,LPU再加速TPU,如此循环。这套逻辑导致方案越来越复杂,而且极有可能无法适应AI模型和应用场景的变化。在Tenstorrent,我们认为更通用、更简洁的方案才是正确方向。"他在声明中如是说。
Q&A
Q1:推理计算和训练计算有什么区别?为什么推理对AI芯片初创企业更重要?
A:训练是让模型从数据中学习,需要大规模统一的计算资源;推理则是将训练好的模型部署后对外提供服务,工作负载更加多样化。正因推理场景复杂多变,不同任务对计算、内存、带宽的需求各不相同,这为芯片初创企业提供了差异化突破口,不必与英伟达在同一赛道上正面竞争。
Q2:Lumai的光学推理加速器和普通GPU相比有什么优势?
A:Lumai的光学推理加速器使用光而非电子进行矩阵乘法运算,功耗远低于纯数字架构的GPU。其下一代Iris Tetra系统预计在2029年实现10千瓦功耗下达到ExaOPS级AI性能。目前该芯片已可运行Llama 3.1 8B/70B等模型,并已向云服务商开放评估,适合批量处理等计算密集型推理场景。
Q3:Tenstorrent的Galaxy Blackhole平台和英伟达、AWS的分解式推理方案有什么不同?
A:英伟达和AWS采用的是分解式推理方案,即用不同芯片分别处理预填充和解码两个阶段。而Tenstorrent的Galaxy Blackhole平台基于RISC-V架构,CEO吉姆·凯勒明确反对这种"加速器套加速器"的复杂方案,认为其兼容性差、难以适应AI模型的快速变化,主张用更通用、更简洁的单一架构解决推理问题。
好文章,需要你的鼓励
无人机食品配送服务商Flytrex与全球知名披萨连锁品牌Little Caesars宣布合作,推出全新Sky2无人机,最大载重达4公斤,可一次配送两个大披萨及饮料,满足全家用餐需求。Sky2支持最远6.4公里的配送范围,平均从起飞到送达仅需4.5分钟。首个试点门店已在德克萨斯州怀利市上线,并实现与Little Caesars订单系统的直接集成。
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
法国社会住房项目ViliaSprint?已正式完工,成为欧洲最大的3D打印多户住宅建筑,共12套公寓,建筑面积800平方米。项目由PERI 3D Construction使用COBOD BOD2打印机完成,整体工期较传统建造缩短3个月,实际打印仅用34天(原计划50天),现场操作人员从6人减至3人,建筑废料率从10%降至5%。建筑采用可打印混凝土,集成光伏板及热泵系统,能源自给率约达60%。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。