AI已经为数据中心引入了全新的、能耗密集型工作负载。然而,大多数部署仍然使用熟悉的CPU加速器服务器模型和可追溯到几十年前的稳定x86指令集。如今的AI服务器通常将GPU与x86 CPU配对,但这种主导地位并不意味着x86是唯一可行的选择。
替代CPU架构可以有效运行AI工作负载,并且在匹配适当工作负载和软件堆栈的前提下,可以降低数据中心成本并提高可持续性。
当前AI服务器的动力配置
x86凭借其深厚的硬件、编译器、库和供应商支持生态系统,成为服务器的事实标准。然而,大多数AI工作负载本身并不需要x86架构。几种替代方案是可信的选择:
ARM是由Arm公司授权的专有精简指令集计算(RISC)架构,广泛应用于移动计算,并在服务器领域获得关注。
RISC-V是一种开放且模块化的RISC架构,支持定制化和成本灵活性,虽然商业生态系统较小但正在增长。
ASIC(专用集成电路)是定制芯片,可为特定操作提供出色的每瓦性能,但设计和部署成本高昂且耗时,缺乏CPU的通用性。
与x86相比,这些选项可以提供更好的每瓦性能和热特性,这对于能耗密集型、需要大量冷却的AI工作负载来说是宝贵的特性。
AI系统中能耗的真正去向
CPU消耗大量电力并产生热量;然而,在以训练为中心的系统中,GPU通常占据了大部分功耗。一些GPU集成了小型RISC-V控制器来执行管理功能,而繁重的工作由专门的GPU核心执行。CPU选择仍然影响总系统功耗,但GPU通常设定了功耗底线。
实际比较分析
功耗因SKU、外形规格和工作负载而异。顶级x86服务器CPU通常具有数百瓦的热设计功耗(TDP)范围(某些SKU约为350-500W)。ARM服务器CPU在许多设计中可以以较低TDP提供高核心数量。英伟达H100在PCIe形式下运行功耗约为350W,在SXM配置中高达700W。
在将单个SXM H100与高效ARM CPU配对的系统与配备更高功耗x86 CPU的系统相比,在其他条件相同的情况下,总系统功耗可以大幅降低。GPU仍然占主导地位,但CPU端的效率降低了功耗和冷却负载。实际节省取决于具体SKU、利用率和系统设计。
细节差异:每瓦性能和工作负载设计
苹果对苹果的比较很复杂。功耗必须与有效性能一起考虑:
每瓦性能取决于工作负载。如果每核性能或矢量计算能力与x86对应产品不同,ARM芯片的较低功耗可能会被部分抵消。相反,某些ARM和RISC-V设计可能在特定任务上表现出色,提高整体效率。
CPU利用率取决于AI堆栈。AI管道将工作负载卸载到GPU与CPU的程度显著影响CPU的能耗影响。数据预处理、模型编排、Token化、分片、输入输出和安全层可能会因设计而占用大量CPU资源。
软件生态系统和优化很重要。编译器成熟度、内核库和运行时优化影响各架构的绝对性能和效率。
由于这些因素,声称ARM、RISC-V或其他替代方案在能效方面普遍优于x86是不准确的。然而,对于匹配良好的工作负载和优化的堆栈,在能耗使用和冷却效率方面可以实现真正的收益。
总结
替代CPU架构可以在不牺牲能力的情况下改善AI数据中心的能效和热行为,但效果程度取决于工作负载如何实际使用CPU。关键问题是能耗和冷却节省以及潜在的性能提升是否足以证明硬件投资、软件适配和组织变革的合理性。
Q&A
Q1:ARM和RISC-V CPU相比x86有什么优势?
A: ARM和RISC-V CPU相比x86可以提供更好的每瓦性能和热特性,这对能耗密集型的AI工作负载很有价值。ARM在许多设计中能以较低的热设计功耗提供高核心数量,而RISC-V作为开放架构支持定制化和成本灵活性。
Q2:在AI服务器中CPU和GPU的功耗占比是怎样的?
A: 在以训练为中心的AI系统中,GPU通常占据大部分功耗。例如英伟达H100的功耗可达350-700W,而顶级x86服务器CPU功耗约为350-500W。虽然GPU设定了功耗底线,但CPU选择仍然影响总系统功耗和冷却负载。
Q3:选择替代CPU架构需要考虑哪些因素?
A: 需要考虑工作负载匹配度、每瓦性能表现、CPU利用率、软件生态系统成熟度和优化程度。还要评估能耗和冷却节省、潜在性能提升是否能证明硬件投资、软件适配和组织变革的合理性,因为不同架构在特定任务上的表现差异很大。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。