当英特尔统治全球数据中心时,高通就对数据中心业务心生羡慕,而现在英伟达展示了AI处理如何彻底改变芯片制造商的财务状况后,高通的羡慕之情更加强烈。高通是高端Arm CPU和智能手机附加电路的销量领导者,拥有创建服务器CPU和AI加速器的知识产权和人才,能够在巨大的AI推理机会中分得一杯羹。
然而,高通缺乏的是能够从英伟达AI推理工作负载中分走大块蛋糕的技术,无论华尔街本周对沙特阿拉伯Humain AI初创公司成为高通数据中心AI雄心的金主这一前景有多么兴奋。高通在AI训练领域绝对没有机会创造任何能够挑战英伟达的产品,而根据我们的模型,英伟达将在截至明年1月的2026财年从AI训练中获得约一半的1835亿美元数据中心收入。
这就是你必须通过绿色镜片来看待高通本周与Humain交易的视角。
今年5月,高通与Humain签署了谅解备忘录,合作开发边缘和数据中心的AI技术。该备忘录不仅包括预期的AI推理芯片(我们希望它们有更好的产品名称,也希望知道代号),还包括由Snapdragon和Dragonwing片上系统设计驱动的边缘设备,旨在"加速"后端云基础设施,并为这些SoC调优Humain的阿拉伯语大语言模型。重要的是,该备忘录要求高通"开发和供应最先进的数据中心CPU和AI解决方案",这明确意味着高通正在重新进入服务器CPU业务,同时获得资金扩展其AI加速器产品线。
让我们先讨论AI加速器,然后再考虑服务器CPU。
与本周在沙特阿拉伯利雅得举行的2025年未来投资倡议会议同时,Humain和高通从备忘录转向实际合同,并透露正在开发两款未来的AI加速器,Humain作为首个客户。就像博通对其至少两个XPU客户所做的那样,高通也为Humain提供完整的机架级系统,而不仅仅是必须提供给广达、富士康、英维思、捷普电路、天弘、纬颖等原始设计制造商(仅举几个大厂)来制造服务器并集群成系统的芯片。
高通最初的AI 100 XPU于2019年宣布,并在2021年上半年的某个时候出货。我们唯一见到它们是在晶圆级系统供应商Cerebras Systems调整其软件堆栈以进行推理之前。但在2024年3月,当WS-3计算引擎及其CS-3系统首次亮相时,Cerebras将推理工作卸载到高通AI 100加速器机架上,比当时使用自己的系统进行推理更便宜。到去年9月,Cerebras已调整其软件来运行推理工作负载,我们再也没有听说过AI 100 XPU。
坦率地说,有太多初创公司在追逐AI推理,发生了太多事情,我们从未回头关注。(对此向高通道歉。)无论如何,高通在2021年9月发布了AI 100加速器的一系列基准测试,这些读物很有趣,显示这些设备在ResNet-50图像处理测试中与低端和高端英伟达"Ampere" GPU以及其他适合边缘的推理引擎不相上下。与英伟达A100 GPU相比,AI 100在每瓦每秒推理方面表现特别出色,这是一个重要事实。
但推理已经向前发展,特别是在生成式AI方面,计算工作负载变得更加密集。但人们也更渴望找到更便宜的替代方案——如果真的存在的话——相比在英伟达机架级CPU-GPU混合系统上运行专家混合、推理推理。
2024年10月——我们找不到确切的公告日期,这很奇怪——高通开始出货名为AI 80的AI 100精简版,还创建了一个PCI-Express卡,将四个AI 100芯片互连在一个名为AI 100 Ultra的单一封装上。(还添加了AI 80卡的Ultra版本。)高通还开始在XPU上获得更好的SRAM良率,能够将容量从每芯片126 MB提升到每芯片144 MB——我们不知道SRAM暂存存储器的这一容量是否是设备上可用的最大容量,但如果不是,可能也接近了。
就在几天前,位于高通总部附近的加州大学圣地亚哥分校的研究人员将AI 100 Ultra与配备四个和八个A100 GPU的系统进行了基准测试,高通XPU表现良好。在GPT-2和Granite 3.2上,四个A100的每个生成token耗电量比配备四个高通芯片的单个AI 100 Ultra少60%,A100在Neomtron-70B模型上表现稍好。但除此之外,给定数量的高通卡比给定数量的英伟达卡提供更好的每瓦性能。
奇怪的是,UCSD的论文实际上没有做数学计算并明确显示这两组设备如何叠加,让读者自己做数学。但我们构建了上面的表格来向你展示它们的比较。
论文没有讨论的另一件事是计算密度和达到给定吞吐量所需的设备数量。我们做了数学计算,计算需要多少AIC(高通有时称其卡为AIC)来匹配四个或八个A100的性能。如你所见,数字增加得相当快。假设地说,如果你能将十六个AIC卡装入一个5U服务器中,这是相当密集的,那么在AI 100 Ultra在效率上击败GPU的那些领域,需要一到四个高通加速器机架来匹配四个或八个A100 GPU的性能。匹配英伟达更低精度"Hopper" H100或H200或"Blackwell" B100、B200或B300 GPU的性能将分别需要2倍或4倍到6倍的机架。
像往常一样,如果你有空间,在你的工作负载极易并行化的情况下,你可以选择便宜的方案。
这里有一个表格比较高通AI XPU的五个现有变体以及我们对未来AI 200和AI 250加速器Ultra版本的估计,这些加速器本周作为与Humain交易的一部分被披露:
我们相当确定高通在台湾半导体制造公司制造其AI XPU;我们猜测了使用的工艺,像往常一样,我们的猜测以粗体红色斜体显示。
我们知道明年某时推出的AI 200将有768 GB的LPDDR5主存储器,将使用PCI-Express作为机架内扩展网络,使用以太网跨机架扩展,Hussain作为锚定客户。大概就是这样。我们知道AI 250增强版将在2027年初推出,高通已承诺为其AI加速器的进步制定年度节奏。
我们对AI 200 Ultra和AI 250 Ultra的估计主要是为了自娱自乐,并了解这些可能的样子。
关于AI 100系列中使用的芯片架构,已知细节不多。它支持FP16浮点和INT8整数处理,以及AI 100卡的性能以及芯片数量和AI核心显示的板级SRAM和主存储器。AI 100架构基于高通智能手机CPU中的Hexagon神经网络处理器(NNP),在一些Linux文档中也称为Q6。
这是高通AI核心的样子:
如你所见,架构在同一核心上有标量、向量和张量单元。它代表高通为其智能手机开发的第七代神经网络处理器。标量芯片是一个四路VLIW设置,具有六个硬件线程;它有超过1,800条指令。标量电路有指令和数据缓存,尽管没有显示,标量单元和存储器子系统之间有链接,这是标量单元将工作卸载到核心上的向量和张量单元的方式。该存储器子系统有一个1 MB L2缓存,馈入由向量和张量单元共享的8 MB暂存存储器。
张量单元有超过125条适合AI操作的指令,有8,192个2D乘累加(MAC)阵列来做INT8工作,另有4,096个2D MAC阵列来做FP16工作。张量扩展称为HMX,是Hexagon矩阵扩展的缩写。
向量单元有用于散射/收集集体操作的加速器,并有超过700条用于AI、图像处理和其他内容操作功能的指令。它可以支持8位或16位整数以及16位或32位浮点操作。在8位整数模式下,这个向量单元每个时钟可以做512个MAC操作,在16位浮点下,每个时钟256个MAC操作。这显然只是张量单元吞吐量的一部分,但有些算法需要向量单元,而不是张量单元。向量指令统称为HVX,或Hexagon向量扩展的缩写。
这是当你将十六个AI核心放在一个芯片上并在其周围包装四个LPDDR4X存储器控制器以及一个具有八条I/O通道的PCI-Express 4.0控制器以链接到主机系统时AI 100 SoC的样子:
可以合理假设高通将发布具有更多指令和其他功能的Hexagon 7架构,还将在AI 200代中增加SoC上的AI核心数量。为了跟上步伐,AI 200应该是大约2倍,也许用5纳米工艺蚀刻以使其便宜,以获得相对于当前英伟达GPU的某种每瓦性能优势。我们认为AI 250可能通过2027年从台积电收缩到3纳米工艺再提升50%。所以2026年AI 200有32个核心,2027年AI 250有48个核心。时钟速度将根据所需的热量而定。期望高通强调效率而非性能,这意味着更低的时钟和更多设备以在与GPU设置相同的功耗下获得给定的吞吐量水平。毕竟,这是高通一直在玩的游戏。
我们认为AI核心还必须在张量核心上至少做FP8如果不是FP4精度,与基于Hexagon 6架构的当前AI核心相比,这将使每个时钟周期的性能翻倍或翻四倍。高通可能会摆脱张量核心中的整数支持,大幅提升浮点性能。(这是我们会做的。)
这使我们谈到CPU。高通早在2017年就有一个名为"Amberwing" Centriq 2400的Arm服务器CPU。它是一个48核芯片,在当时对抗"Broadwell"和"Skylake" Xeon SP表现相当不错。传言是谷歌是Centriq努力的支持者,无论什么原因,当谷歌没有购买大量时,高通在2018年5月停止了服务器CPU努力。2021年1月,高通收购了Arm服务器芯片设计商Nuvia,奇怪的是不是为了做服务器,而是为了获得其"Phoenix"核心,现在称为Oryon核心,与高通自己设计的Snapdragon核心形成对比。
高通已经非常明确地表示,根据其5月与Humain的公告,它再次在开发数据中心服务器CPU。我们认为,未来的AI 200和AI 250设备很有可能在封装中集成服务器级Oryon Arm核心,消除运行外部X86或Arm CPU作为主机的需要。我们敢说连接到AI 200的LPDDR5存储器或连接到AI 250加速器的LPDDR6X存储器将与所述Oryon核心coherently共享。
高通的声明说AI 250"将以基于近存储器计算的创新存储器架构首次亮相,通过提供大于10倍更高的有效存储器带宽和更低的功耗,为AI推理工作负载提供代际性能和效率飞跃"。我们不确定这意味着什么,但听起来可能意味着我们上面说的。我们不期望高通在其设备上添加HBM堆叠存储器,这将违背降低成本和增加可用性的目的。
这使我们来到下一个问题:Humain计划购买多少高通加速器,这对高通来说是多少钱?(这是另一种说法,即它能从英伟达那里拿走多少钱。)
高通表示它赢得了200兆瓦的部署。以配备四个SoC的AI 200 Ultra卡250瓦计算,那是800,000张卡。我们知道高通希望每个机架提供160千瓦,所以假设AI 200 Ultra占该功率的80%,即128千瓦。那是每个机架512个设备,即1,250个机架。以每张卡4,000美元计算,那是32亿美元,加上机架及其冷却、网络和存储可能还有20亿美元。那是每个机架520万美元,如果高通摆脱张量核心上的整数数学,只做浮点并将张量核心上的精度降到FP4,那机架中那32万美元的计算是983 petaflops,即每petaflops 2,604美元,每千瓦每petaflops 16.30美元。
英伟达B300 NVL72每个机架成本多少,根据你问谁和条件,重量约为120千瓦到145千瓦。不包括存储,但只是扩展网络和主机计算,那个GB300 NVL72机架在FP4精度下做1,100 petaflops(真正针对推理而非训练调整),成本约40亿美元。使用每个机架145千瓦数字,那是每petaflops 3,636美元,每千瓦每petaflops 25.08美元。高通的每瓦效能优势约35%。
如果AI 200 Ultra每单位6,150美元——如果它看起来像我们认为的那样——那么GB300机架和AI 200 Ultra机架之间的每瓦性能是相同的。高通可以根据市场条件从那里削减,也许由于供应短缺和拥有多个供应商的愿望,它根本不必打折太多。
Q&A
Q1:高通AI 100和AI 200加速器有什么特点?
A:高通AI 100基于Hexagon神经网络处理器,支持FP16浮点和INT8整数处理,每个芯片有16个AI核心和144MB SRAM。即将推出的AI 200将配备768GB LPDDR5内存,预计有32个AI核心,在效率上相比英伟达GPU有35%的每瓦性能优势。
Q2:高通如何与英伟达在AI推理市场竞争?
A:高通采用"空间换成本"策略,通过更多数量的设备来匹配英伟达GPU性能,同时提供更好的每瓦效能。虽然需要更多机架空间,但在工作负载易于并行化的情况下,可以提供更便宜的解决方案。
Q3:高通与沙特Humain的合作规模有多大?
A:高通赢得了200兆瓦的部署合同,预计需要约80万张AI 200 Ultra卡,价值32亿美元。加上机架和配套设施,总价值约52亿美元,将部署在1,250个机架中,每个机架功耗128千瓦。
好文章,需要你的鼓励
技术无知正在阻碍全球经济增长。在关键利益相关者中,技术无知增长最快且影响最为严重。CIO必须了解利益相关者对技术的认知水平,通过提升其IT素养来实现技术的全部潜力。文章提出三个关键问题:用户是否理解日常使用的技术、用户是否清楚自己的技术需求、以及如何处理无法从技术变革中受益的利益相关者。
Character AI联合耶鲁大学开发的OVI系统实现了音视频的统一生成,通过"孪生塔"架构让音频和视频从生成之初就完美同步。该系统在5秒高清内容生成上显著超越现有方法,为多模态AI和内容创作领域带来突破性进展。
OpenAI宣布从11月4日开始向印度用户免费提供一年ChatGPT Go订阅服务。该计划月费不到5美元,于8月在印度推出,是OpenAI最实惠的付费订阅方案。印度拥有超过7亿智能手机用户,是OpenAI仅次于美国的第二大市场。ChatGPT Go提供比免费版本多10倍的使用量,包括生成回复、创建图像和上传文件功能。
这项由南洋理工大学研究团队开发的DragFlow技术,首次实现了在先进AI模型FLUX上的高质量区域级图像编辑。通过创新的区域监督、硬约束背景保护和适配器增强等技术,将传统点对点编辑升级为更自然的区域编辑模式,在多项基准测试中显著超越现有方法,为图像编辑技术带来革命性突破。