AI已经为数据中心引入了全新的、能耗密集型工作负载。然而,大多数部署仍然使用熟悉的CPU加速器服务器模型和可追溯到几十年前的稳定x86指令集。如今的AI服务器通常将GPU与x86 CPU配对,但这种主导地位并不意味着x86是唯一可行的选择。
替代CPU架构可以有效运行AI工作负载,并且在匹配适当工作负载和软件堆栈的前提下,可以降低数据中心成本并提高可持续性。
当前AI服务器的动力配置
x86凭借其深厚的硬件、编译器、库和供应商支持生态系统,成为服务器的事实标准。然而,大多数AI工作负载本身并不需要x86架构。几种替代方案是可信的选择:
ARM是由Arm公司授权的专有精简指令集计算(RISC)架构,广泛应用于移动计算,并在服务器领域获得关注。
RISC-V是一种开放且模块化的RISC架构,支持定制化和成本灵活性,虽然商业生态系统较小但正在增长。
ASIC(专用集成电路)是定制芯片,可为特定操作提供出色的每瓦性能,但设计和部署成本高昂且耗时,缺乏CPU的通用性。
与x86相比,这些选项可以提供更好的每瓦性能和热特性,这对于能耗密集型、需要大量冷却的AI工作负载来说是宝贵的特性。
AI系统中能耗的真正去向
CPU消耗大量电力并产生热量;然而,在以训练为中心的系统中,GPU通常占据了大部分功耗。一些GPU集成了小型RISC-V控制器来执行管理功能,而繁重的工作由专门的GPU核心执行。CPU选择仍然影响总系统功耗,但GPU通常设定了功耗底线。
实际比较分析
功耗因SKU、外形规格和工作负载而异。顶级x86服务器CPU通常具有数百瓦的热设计功耗(TDP)范围(某些SKU约为350-500W)。ARM服务器CPU在许多设计中可以以较低TDP提供高核心数量。英伟达H100在PCIe形式下运行功耗约为350W,在SXM配置中高达700W。
在将单个SXM H100与高效ARM CPU配对的系统与配备更高功耗x86 CPU的系统相比,在其他条件相同的情况下,总系统功耗可以大幅降低。GPU仍然占主导地位,但CPU端的效率降低了功耗和冷却负载。实际节省取决于具体SKU、利用率和系统设计。
细节差异:每瓦性能和工作负载设计
苹果对苹果的比较很复杂。功耗必须与有效性能一起考虑:
每瓦性能取决于工作负载。如果每核性能或矢量计算能力与x86对应产品不同,ARM芯片的较低功耗可能会被部分抵消。相反,某些ARM和RISC-V设计可能在特定任务上表现出色,提高整体效率。
CPU利用率取决于AI堆栈。AI管道将工作负载卸载到GPU与CPU的程度显著影响CPU的能耗影响。数据预处理、模型编排、Token化、分片、输入输出和安全层可能会因设计而占用大量CPU资源。
软件生态系统和优化很重要。编译器成熟度、内核库和运行时优化影响各架构的绝对性能和效率。
由于这些因素,声称ARM、RISC-V或其他替代方案在能效方面普遍优于x86是不准确的。然而,对于匹配良好的工作负载和优化的堆栈,在能耗使用和冷却效率方面可以实现真正的收益。
总结
替代CPU架构可以在不牺牲能力的情况下改善AI数据中心的能效和热行为,但效果程度取决于工作负载如何实际使用CPU。关键问题是能耗和冷却节省以及潜在的性能提升是否足以证明硬件投资、软件适配和组织变革的合理性。
Q&A
Q1:ARM和RISC-V CPU相比x86有什么优势?
A: ARM和RISC-V CPU相比x86可以提供更好的每瓦性能和热特性,这对能耗密集型的AI工作负载很有价值。ARM在许多设计中能以较低的热设计功耗提供高核心数量,而RISC-V作为开放架构支持定制化和成本灵活性。
Q2:在AI服务器中CPU和GPU的功耗占比是怎样的?
A: 在以训练为中心的AI系统中,GPU通常占据大部分功耗。例如英伟达H100的功耗可达350-700W,而顶级x86服务器CPU功耗约为350-500W。虽然GPU设定了功耗底线,但CPU选择仍然影响总系统功耗和冷却负载。
Q3:选择替代CPU架构需要考虑哪些因素?
A: 需要考虑工作负载匹配度、每瓦性能表现、CPU利用率、软件生态系统成熟度和优化程度。还要评估能耗和冷却节省、潜在性能提升是否能证明硬件投资、软件适配和组织变革的合理性,因为不同架构在特定任务上的表现差异很大。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。