Cerebras 近期因在纳斯达克成功上市而频繁登上各大科技媒体头条。此次 IPO 成为半导体行业史上规模最大的上市之一,估值约达 55 亿美元。上市后不久,Cerebras 又取得了一项重要性能里程碑——成功以每秒 981 个输出 Token 的速度运行超大规模开源 AI 模型 Kimi K2.6(参数量达 1 万亿),根据 Artificial Analysis 的数据,这一速度是第二快的基于 GPU 的云服务提供商的 6.7 倍。
在本期 RCRTV AI TechTalk 对话的第二部分中,主持人 Susana Schwartz 与 Cerebras 联合创始人 Jean-Philippe Fricker 深入探讨了"晶圆级"技术的真正含义——不仅仅体现在每秒 Token 输出速度上,还涵盖 AI 推理能力、热管理效率以及能耗优化等多个维度。晶圆级架构究竟在哪些工作负载场景下能够超越 GPU?这对 AI 及大语言模型(尤其是推理环节)又意味着什么?以下是访谈的精彩内容摘要。
如需了解 Cerebras 创始人如何在众多质疑声中坚守初心——毕竟当初不少人认为他们的想法"简直是疯了"——可参阅本系列第一部分。
晶圆级架构的核心优势
在访谈中,Fricker 详细阐述了晶圆级芯片区别于传统 GPU 的根本所在。传统 GPU 架构依赖多芯片互联,数据在芯片之间传输时会产生大量延迟与能耗损耗;而晶圆级芯片将整块晶圆作为单一处理单元,片上互联带宽极大,数据流动几乎不存在瓶颈。这种架构在处理大语言模型推理任务时尤为突出——由于模型参数可以直接驻留在片上存储中,无需频繁访问外部高带宽内存(HBM),推理延迟因此大幅降低。
热管理与能效表现
晶圆级设计也带来了独特的热管理挑战。Fricker 表示,Cerebras 在早期研发阶段就投入大量资源攻克散热难题,最终开发出一套专有的液冷系统,能够有效应对单块晶圆产生的高密度热量。从能效角度来看,由于减少了芯片间数据搬运,整体系统在完成相同推理任务时所消耗的能量显著低于同等性能的 GPU 集群,这在大规模数据中心部署中具有重要的经济价值。
适合晶圆级架构的工作负载
并非所有 AI 工作负载都适合晶圆级架构。Fricker 指出,晶圆级芯片最擅长的场景是对推理吞吐量和低延迟有极高要求的大语言模型推理任务,尤其是在批量推理和实时对话类应用中表现突出。相比之下,对于训练任务或某些需要高度灵活并行扩展的场景,GPU 集群的成熟生态仍具备竞争力。Cerebras 目前的战略重心正是聚焦于推理市场,以差异化的速度优势与传统 GPU 云服务形成错位竞争。
行业动态速览
在更广泛的行业层面,多项值得关注的进展正在同步推进。太平洋海底网络格局正在重塑,Telstra 与谷歌达成基础设施互惠协议,FLAG 推出印度至新加坡新线路,日本 NICT 也完成了一项破纪录的光纤传输测试。BUZZ 高性能计算公司总裁兼首席运营官 Craig Tavares 指出,专用高容量连接将直接影响大规模 AI 设施的经济性与竞争力。
Alphabet 宣布启动自 2005 年以来首次股票发行,计划募资 800 亿美元用于扩展 AI 基础设施,伯克希尔·哈撒韦以 100 亿美元私募方式参与其中。英伟达与 Akamai 扩大合作,聚焦"AI 工厂"方向,将安全能力直接嵌入 AI 系统基础设施层,以保护迁移至边缘环境的工作负载。英特尔 CEO 陈立武在 Computex 上发表主题演讲,强调 CPU 在现代 AI 基础设施中的核心地位,并宣布基于 Intel 18A 制程节点的至强 6+ DC 处理器正式商用。此外,得克萨斯州胡德县——一个人口仅 6.2 万的农村社区——已有开发商提议建设多达 8 座数据中心,占地超过 7600 英亩,部分设施或将由新建的燃气电厂供电。台积电则宣布引入英伟达加速计算与 AI 技术用于半导体设计与制造,借助 CUDA-X 库和 AI 模型加速光刻、晶体管及工艺仿真等核心环节。
Q&A
Q1:Cerebras 的晶圆级芯片和普通 GPU 相比,最大的优势是什么?
A:Cerebras 晶圆级芯片将整块晶圆作为单一处理单元,片上互联带宽极大,数据流动几乎没有瓶颈。在大语言模型推理场景下,模型参数可直接驻留在片上存储中,无需频繁访问外部高带宽内存,推理延迟因此大幅降低。根据 Artificial Analysis 数据,Cerebras 运行 Kimi K2.6 模型的速度达每秒 981 个 Token,是第二快 GPU 云服务商的 6.7 倍。
Q2:晶圆级芯片适合哪些 AI 工作负载?
A:晶圆级芯片最适合对推理吞吐量和低延迟有极高要求的大语言模型推理任务,尤其在批量推理和实时对话类应用中表现突出。对于模型训练或需要高度灵活并行扩展的场景,成熟的 GPU 集群生态仍具竞争力。Cerebras 目前战略重心集中在推理市场,以速度优势与 GPU 云服务形成差异化竞争。
Q3:晶圆级芯片的散热问题是怎么解决的?
A:晶圆级设计会产生高密度热量,是早期研发的核心挑战之一。Cerebras 专门开发了一套专有液冷系统,能够有效应对单块晶圆产生的热量。在能效方面,由于减少了芯片间数据搬运,完成相同推理任务的能耗显著低于同等性能的 GPU 集群,在大规模数据中心部署中具有明显的经济优势。
好文章,需要你的鼓励
今天讲的出海案例是明阳电气,这家输配电设备公司在马来西亚投产首个海外生产基地,并以 250 万林吉特子公司承接本地制造。
SurGe是亚琛工业大学提出的单图三维重建模型,通过邻域注意力解码器和点梯度匹配损失,显著改善了AI从单张照片生成三维点图时的局部表面质量问题。
数学界发布《莱顿宣言》,由16位研究人员历时8个月起草,已获国际数学联盟背书。宣言指出,AI正威胁数学研究的核心价值:AI生成的错误证明难以识别、论文引用不规范、版权争议频发、科技公司主导研究议题,以及企业借新闻稿抢占话语权等问题日益严峻。宣言呼吁数学家透明披露AI使用情况,建议监管机构保护作者权利并规范AI产业,同时警告各方不要轻信科技公司对AI能力的夸大宣传。
清华大学与UCLA联合提出One-Forcing,通过结合分布匹配蒸馏与真实数据判别器,实现单步自回归视频生成,VBench得分83.76,训练成本仅需传统方案三分之一。