OpenAI与Cerebras达成超100亿美元AI推理芯片合作协议

OpenAI宣布将部署750兆瓦的Cerebras晶圆级加速器来增强推理服务，合作协议价值超过100亿美元，将持续到2028年。Cerebras的WSE-3芯片拥有44GB SRAM和21PB/s的内存带宽，相比英伟达GPU快近1000倍，可实现每秒3098个令牌的推理性能。该合作旨在提升AI响应速度，但SRAM空间效率限制使大模型需要多芯片并行处理。

OpenAI宣布将在2028年前部署750兆瓦容量的Cerebras晶圆级加速器，以增强其推理服务能力。据知情人士透露，这项协议价值超过100亿美元，Cerebras将承担为OpenAI建设和租赁数据中心的风险。

通过将Cerebras的晶圆级计算架构集成到推理管道中，OpenAI可以利用该芯片的大容量SRAM来加速推理过程。Cerebras的WSE-3加速器芯片面积达到46,225平方毫米，配备44GB的SRAM。

与现代GPU上的HBM相比，SRAM的速度要快几个数量级。单颗Nvidia Rubin GPU可以提供约22TB/s的内存带宽，而Cerebras芯片的带宽达到21PB/s，几乎是前者的1000倍。

这种带宽优势转化为极快的推理性能。在运行OpenAI的gpt-oss 120B等模型时，Cerebras芯片据称可以达到每秒3,098个Token的单用户性能，相比之下使用Nvidia GPU的竞争对手Together AI仅为885Token/s。

在推理模型和智能体时代，更快的推理意味着模型可以在不影响交互性的情况下进行更长时间的"思考"。OpenAI在最近的博客文章中解释道："将Cerebras集成到我们的计算解决方案组合中，目的是让AI响应更快。当你提出复杂问题、生成代码、创建图像或运行智能体时，后台会发生一个循环过程：发送请求、模型思考、返回结果。当AI能够实时响应时，用户会更多地使用它，停留时间更长，运行更高价值的工作负载。"

然而，Cerebras的架构也有一些局限性。SRAM在空间效率方面表现不佳，这就是为什么尽管芯片尺寸令人印象深刻，但其内存容量仅相当于六年前的Nvidia A100 PCIe卡。

因此，更大的模型需要在多个芯片间并行化处理，每个芯片的功耗高达23千瓦。根据使用的精度，所需的芯片数量可能相当可观。在Cerebras历史上偏好的16位精度下，每十亿参数需要消耗2GB的SRAM容量。因此，即使是Llama 3 70B这样的中等规模模型也需要至少四个CS-3加速器才能运行。

距离Cerebras发布新的晶圆级加速器已经近两年了，期间公司的重点已从训练转向推理。我们预计该公司的下一款芯片可能会为SRAM分配更大的面积，并增加对MXFP4等现代块浮点数据类型的支持，这应该能显著增加单芯片可服务的模型规模。

话说回来，去年夏天随着OpenAI GPT-5发布而引入的模型路由器应该有助于缓解Cerebras的内存限制。这种方法确保ChatGPT处理的绝大多数请求都由较小的成本优化模型来完成，只有最复杂的查询才会在OpenAI最大且最耗资源的模型上运行。

OpenAI也可能选择在Cerebras设备上运行部分推理管道。过去一年中，分离式推理的概念开始兴起。

理论上，OpenAI可以在AMD或Nvidia GPU上运行计算密集的提示处理，然后将Token生成任务卸载到Cerebras的SRAM密集型加速器上，用于处理带宽受限的Token生成阶段。这是否真的可行将取决于Cerebras。

当被问及在分离式计算架构中使用CS-3的可能性时，Cerebras公司发言人表示："这是一项云服务协议。我们为OpenAI建设配备我们设备的数据中心，为他们的模型提供最快的推理能力。"

这并不意味着不会发生，但需要Cerebras在其数据中心内与晶圆级加速器一起部署支持此类配置所需的GPU系统。

Q&A

Q1：Cerebras的WSE-3加速器相比Nvidia GPU有什么优势？

A：Cerebras的WSE-3加速器拥有21PB/s的内存带宽，几乎是Nvidia Rubin GPU（22TB/s）的1000倍。在运行推理任务时，WSE-3可以达到每秒3,098个Token的性能，而使用Nvidia GPU的竞争对手仅为885Token/s。这主要得益于其大容量SRAM的超高带宽特性。

Q2：Cerebras芯片有哪些技术限制？

A：主要限制是SRAM空间效率不高，尽管芯片面积达46,225平方毫米，但内存容量仅相当于六年前的Nvidia A100 PCIe卡。大型模型需要多芯片并行处理，每个芯片功耗高达23千瓦。在16位精度下，每十亿参数需要2GB SRAM，连Llama 3 70B这样的模型都需要至少四个芯片。

Q3：OpenAI为什么选择与Cerebras合作而不是继续使用Nvidia？

A：OpenAI选择Cerebras主要是为了获得更快的推理速度。在智能体和推理模型时代，更快的推理让模型可以进行更长时间的"思考"而不影响交互性。当AI能实时响应时，用户会更多使用、停留更久、运行更高价值的工作负载。Cerebras的超高带宽SRAM架构特别适合推理任务的需求。

来源：The Register

0赞

好文章，需要你的鼓励

OpenAI与Cerebras达成超100亿美元AI推理芯片合作协议

来源：The Register

2026

01/16

09:20

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

微软推出社区优先模式扩展AI基础设施建设

"AI Pod"进驻美国中小城市 创建低延迟边缘计算基础设施

研究人员揭露Reprompt攻击：一键窃取微软Copilot数据

25岁的维基百科面临AI威胁，访问量下降流量被ChatGPT超越

维基媒体基金会与亚马逊、Meta等科技巨头达成AI合作伙伴关系

OpenAI投资山姆·奥特曼脑机接口初创公司Merge Labs

AI消除繁琐工作是否会扼杀创造力?专家观点解析

ChatGPT推出专门的翻译工具，免费提供与谷歌翻译类似服务

Gemini个人智能功能预示全新Siri发展方向

教AI写漏洞代码，竟让它产生奴役人类幻想

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会

"AI Pod"进驻美国中小城市创建低延迟边缘计算基础设施