博通与韩国AI基础设施初创公司FuriosaAI正在构建一个机架级推理平台,旨在推动AI基础设施超越目前主导市场的以GPU为中心的架构。
这项于周三宣布的合作,将FuriosaAI的第三代张量收缩处理器架构与博通的网络、封装和互连技术相结合,构建面向超大规模AI部署的多芯片小芯片推理系统。
两家公司将这一合作定位为不仅仅是芯片层面的协作。该平台将Furiosa的推理架构与博通以太网架构、PCIe技术、先进封装能力和AI基础设施IP相结合,实现推理集群在数千个节点上的扩展。
这一宣布正值AI基础设施运营商日益面临一个新问题:推理工作负载的扩展速度开始超过最初推动生成式AI热潮的训练环境。
从服务器到机架级基础设施
这一宣布延续了Furiosa围绕垂直整合推理基础设施构建的更广泛战略。今年早些时候,该公司推出了自己的RNGD推理服务器,采用针对企业和私有云AI环境优化的密集风冷部署方案。
当时,Furiosa首席执行官June Paik将这一努力定位为减少对英伟达软件生态系统依赖的更大推动的一部分。
"我们面临的挑战是用自己的软件栈替换CUDA引擎,"Paik在早前的采访中表示。
与博通的合作将这一战略从单服务器优化扩展到机架级网络和集群架构。
推理改变基础设施方程式
这一宣布也反映了AI基础设施内部正在发生的更广泛转变,推理工作负载开始与推动英伟达崛起的训练系统分道扬镳。
虽然大规模模型训练仍然严重依赖紧密耦合的GPU集群和NVLink等专有互连技术,但运营商在生产规模部署推理基础设施时越来越多地面临一系列不同的约束:功率密度、网络效率、内存带宽、延迟和Token吞吐量。
HyperFrame Research网络和基础设施副总裁兼实践负责人Ron Westfall表示,大规模推理正在将AI基础设施的优先级从塑造GPU密集型训练集群的需求转移开。
"大规模推理将瓶颈转向优化总体拥有成本、内存带宽和每Token功耗,"Westfall说。
"推理性能不再仅由原始计算能力定义,"博通半导体解决方案集团总裁Charlie Kawwas在发布会上表示。"它越来越成为跨服务器和机架的数据复用和通信效率的函数。"
这一定位将网络和数据移动置于下一代推理设计的中心。
Westfall表示,这一合作反映了随着AI部署规模超越紧密耦合的训练系统,行业对网络效率的日益重视。
"优化网络效率和机架级互连性现在与原始芯片性能一样,对推理经济性至关重要,"他说。
以太网架构走向中心舞台
两家公司表示,Furiosa的第三代加速器将使用2nm计算芯片,配合双层HBM4/4E内存和博通封装技术,将多个硅芯片集成到单一片上系统平台中。
据两家公司称,博通的以太网和PCIe技术将提供扩展大型推理集群所需的高带宽机架级连接。
该架构也标志着行业在基于以太网的AI基础设施方面的增长势头,供应商正在寻找专有GPU架构的替代方案。博通越来越多地将自己定位为支撑大型AI集群的网络、交换和互连基础设施的核心供应商,特别是在超大规模云服务商追求定制加速器和异构计算环境的背景下。
与Furiosa的合作也符合博通更广泛的AI基础设施战略。今年早些时候,博通首席执行官Hock Tan表示,该公司看到了到2027年实现超过1000亿美元AI芯片收入的路径,这得益于超大规模云服务商对定制芯片和超越传统GPU部署的多样化AI架构的需求。
Westfall表示,随着运营商面临功率、冷却和扩展约束,行业开始优化整个机架而不是单个加速器。
"优化大规模Token生成不再只是芯片挑战,而是由网络本身驱动的整体系统工程问题,"他说。
Furiosa认为,推理基础设施需要与基于GPU的训练系统不同的架构假设。
"通过专注于高带宽数据移动而不是GPU所需的线程管理,该芯片将提供比最先进GPU更高的每瓦性能和更大的Token密度,"该公司在发布会上表示。
这一主张与Furiosa早前围绕密集推理部署的定位一致,该部署旨在在传统风冷数据中心内运行,而不是围绕前沿AI训练集群出现的日益耗电的液冷GPU环境。
为"Token工厂时代"构建
这一合作建立在Furiosa第二代RNGD推理加速器的基础上,这是一款180W基于PCIe的芯片,目前正在台积电5nm工艺上量产。Furiosa表示,RNGD已被三星SDS和LG AI Research部署,用于标准风冷数据中心的大语言模型和智能体AI工作负载。
Paik将这一新系统描述为为"Token工厂时代"设计的基础设施,这一短语在AI领域越来越多地用于描述服务大量AI生成响应的工业规模推理操作。
该公司还强调软件可移植性是平台战略的一部分。Furiosa表示,其SDK使用基于编译器的方法,自动将PyTorch代码映射到其芯片架构上,避免了GPU部署通常需要的大量内核级优化。
这一合作还突显了AI基础设施竞争如何越来越多地超越原始加速器性能,转向跨机架、网络和功率受限设施高效移动数据的经济性。
Q&A
Q1:博通与FuriosaAI合作开发的机架级推理平台有什么特点?
A:该平台将FuriosaAI的第三代张量收缩处理器架构与博通的网络、封装和互连技术相结合,构建面向超大规模AI部署的多芯片小芯片推理系统。它采用2nm计算芯片配合双层HBM4/4E内存,通过博通的以太网和PCIe技术实现高带宽机架级连接,能够将推理集群扩展到数千个节点。
Q2:为什么推理基础设施需要与训练系统不同的架构设计?
A:大规模推理工作负载面临的约束与训练系统不同,更关注功率密度、网络效率、内存带宽、延迟和Token吞吐量等指标。推理性能不再仅由原始计算能力定义,而是越来越取决于跨服务器和机架的数据复用和通信效率。优化网络效率和机架级互连性现在与原始芯片性能一样重要。
Q3:FuriosaAI的推理加速器相比GPU有什么优势?
A:FuriosaAI的加速器专注于高带宽数据移动而不是GPU所需的线程管理,能够提供更高的每瓦性能和更大的Token密度。其RNGD推理加速器采用180W功耗设计,可在标准风冷数据中心内运行,避免了液冷GPU环境的高功耗问题。此外,其SDK使用基于编译器的方法自动映射PyTorch代码,减少了内核级优化工作。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。