英特尔投资SambaNova3.5亿美元挑战GPU在AI推理领域的主导地位

AI基础设施公司SambaNova获得3.5亿美元融资,用于推进其数据流架构技术,作为基于GPU的AI系统的替代方案。英特尔资本参与投资,并将与SambaNova开展多年合作,为客户在生成式AI部署中提供GPU之外的选择。SambaNova预计今年晚些时候推出SN50加速器,性能相比前代产品大幅提升。该公司的三层内存架构能在毫秒级时间内快速切换模型,提高推理效率。

AI基础设施公司SambaNova成功融资3.5亿美元,旨在推进其数据流架构技术,将其定位为基于GPU的AI系统的替代方案。

这轮融资的参与者包括英特尔资本,这打破了英特尔计划收购SambaNova的传言。其他投资方包括Vista Equity、Cambium Capital以及多家期待SambaNova推出最新一代可重构数据流单元(RDU)时获得丰厚回报的风险投资基金。

英特尔将与这家新兴公司建立"多年期"合作关系,旨在为客户提供生成式AI部署的GPU替代方案。这意味着SambaNova的新RDU将使用至强处理器,此外,双方的合作还将包括硬件软件协同设计。

SambaNova首席执行官Rodrigo Liang表示:"我们拥有非常具有竞争力的产品。他们拥有规模、资本和我们可以合作的客户。"

英特尔在生成式AI领域不仅落后,由于在数据中心GPU和Gaudi产品线上的反复失误,这家巨头可以说完全错过了机会。

英特尔数据中心集团执行副总裁Kevork Kechichian在声明中表示:"随着我们从边缘到云端发展和扩展AI业务,我们正在通过多种方式满足这些需求,以保持生态系统中的关键地位,保护并扩大市场份额。"

SambaNova计划今年晚些时候发布SN50加速器,日本软银已经签约成为这家初创公司的首批客户之一。

SN50芯片技术突破

这款新芯片相比SambaNova 2024年推出的SN40L有显著提升。公司表示,SN50将提供2.5倍的16位浮点性能和5倍的FP8性能,分别达到1.6和3.2 petaFLOPS。

SambaNova表示,其标志性的三层内存架构基本保持不变,该架构允许在几分之一秒内在模型之间切换,并高效卸载键值缓存。每个RDU配备432MB片上SRAM、64GB HBM2E内存(带宽1.8TB/s)以及256GB到2TB的DDR5内存。

后者的灵活性无疑会为SambaNova赢得优势,考虑到内存价格的飙升。

HBM2E看起来可能是个奇怪的选择,但Liang希望确保他的公司能在内存价格上涨时期顺利出货。他说:"从成本角度来看,确保我们不陷入供应链争夺非常重要。"

虽然相比前代产品有很大改进,但SN50在纸面参数上看起来并不那么令人印象深刻,至少与现代GPU相比是这样。它将提供英伟达近两年前推出的Blackwell架构约64%的密集FP8计算能力、三分之一的HBM容量和不到四分之一的内存带宽。

然而,需要记住的是,"峰值"广告FLOPS和带宽与可实现的FLOPS或带宽不是一回事。SambaNova认为,其数据流架构通过重叠计算和通信来减少数据移动开销,使其能够使用更少、功耗更低的加速器。

对于SN50,SambaNova声称与英伟达的B200相比,它可以提供高达5倍的每用户生成速度。

如果SambaNova不是已经成为性能最高的推理服务提供商之一,这些声明将难以令人信服。根据Artificial Analysis的数据,SambaNova的SN40L加速器能够以高达每秒378个token的速度提供大语言模型服务,如2300亿参数的MiniMax M2模型,比最接近的基于GPU的推理服务提供商快100多个token每秒。

话虽如此,随着英伟达NVL72机架的广泛采用,基于GPU的推理平台正在追赶。SambaNova的性能也因模型而异,因此并非在所有场景下都处于明显领先地位。我们还应该注意到,英伟达似乎已经注意到了数据流技术,去年收购了Groq的工程团队并获得了其架构许可。

虽然SambaNova表示不需要超高密度机架就能保持竞争力,但公司已设计新架构以实现扩展。对于SN50,单个推理工作器现在可以扩展到多达256个加速器,是英伟达NVL72机架中加速器数量的3.5倍以上。但由于只有16个风冷RDU和每机架15-30千瓦的功耗,SambaNova的芯片封装密度并不算高。

这个更大的扩展域得到了更快互连的支持。SambaNova告诉我们,他们为每个RDU配备了通过交换结构实现的2.2TB/s双向芯片间带宽。

提升利用率的创新方案

推理性能并非SambaNova的唯一特色。每个加速器可用的大容量DDR5内存池使SambaNova能够在几毫秒内快速将客户模型和键值缓存(本质上是模型的短期内存)移入和移出内存。

Liang表示:"随着我们进入智能体的世界,你开始看到的一件事是这些模型的定制化正导致这些机架运行效率极低。每个人都想要自己的模型,但他们使用自己模型的程度与使用共享模型的程度不同。"

换句话说,当每个人都在访问公共模型时,保持高利用率相对容易,但当每个人都在运行自己的模型时,服务提供商就很难管理了。

Liang说:"目前每个参与者的经济效益都不足以支撑规模化发展。我们在2025年大部分时间里做的工作实际上是将产品优化到这样的程度:每个机架都具备合适的推理经济性,使服务提供商能够通过提供token服务实际获利。"

实现这一目标后,Liang认为SambaNova未来的重点将是销售基础设施,而不是像Groq等公司那样走构建专用推理云的道路。

Q&A

Q1:SambaNova的SN50加速器相比前代产品有什么提升?

A:SN50相比2024年的SN40L有显著提升,提供2.5倍的16位浮点性能和5倍的FP8性能,分别达到1.6和3.2 petaFLOPS。每个RDU配备432MB片上SRAM、64GB HBM2E内存和256GB到2TB的DDR5内存。

Q2:SambaNova的数据流架构相比GPU有什么优势?

A:SambaNova的数据流架构通过重叠计算和通信来减少数据移动开销,声称可以提供比英伟达B200高达5倍的每用户生成速度。其三层内存架构允许在几分之一秒内在模型之间切换,并能高效管理键值缓存。

Q3:英特尔与SambaNova的合作包括哪些内容?

A:英特尔不仅向SambaNova投资,还建立了"多年期"合作关系,旨在为客户提供生成式AI部署的GPU替代方案。合作包括SambaNova的新RDU将使用英特尔至强处理器,以及硬件软件协同设计。

来源:The Register

0赞

好文章,需要你的鼓励

2026

02/25

10:21

分享

点赞

邮件订阅