AI已经为数据中心引入了全新的、能耗密集型工作负载。然而,大多数部署仍然使用熟悉的CPU加速器服务器模型和可追溯到几十年前的稳定x86指令集。如今的AI服务器通常将GPU与x86 CPU配对,但这种主导地位并不意味着x86是唯一可行的选择。
替代CPU架构可以有效运行AI工作负载,并且在匹配适当工作负载和软件堆栈的前提下,可以降低数据中心成本并提高可持续性。
当前AI服务器的动力配置
x86凭借其深厚的硬件、编译器、库和供应商支持生态系统,成为服务器的事实标准。然而,大多数AI工作负载本身并不需要x86架构。几种替代方案是可信的选择:
ARM是由Arm公司授权的专有精简指令集计算(RISC)架构,广泛应用于移动计算,并在服务器领域获得关注。
RISC-V是一种开放且模块化的RISC架构,支持定制化和成本灵活性,虽然商业生态系统较小但正在增长。
ASIC(专用集成电路)是定制芯片,可为特定操作提供出色的每瓦性能,但设计和部署成本高昂且耗时,缺乏CPU的通用性。
与x86相比,这些选项可以提供更好的每瓦性能和热特性,这对于能耗密集型、需要大量冷却的AI工作负载来说是宝贵的特性。
AI系统中能耗的真正去向
CPU消耗大量电力并产生热量;然而,在以训练为中心的系统中,GPU通常占据了大部分功耗。一些GPU集成了小型RISC-V控制器来执行管理功能,而繁重的工作由专门的GPU核心执行。CPU选择仍然影响总系统功耗,但GPU通常设定了功耗底线。
实际比较分析
功耗因SKU、外形规格和工作负载而异。顶级x86服务器CPU通常具有数百瓦的热设计功耗(TDP)范围(某些SKU约为350-500W)。ARM服务器CPU在许多设计中可以以较低TDP提供高核心数量。英伟达H100在PCIe形式下运行功耗约为350W,在SXM配置中高达700W。
在将单个SXM H100与高效ARM CPU配对的系统与配备更高功耗x86 CPU的系统相比,在其他条件相同的情况下,总系统功耗可以大幅降低。GPU仍然占主导地位,但CPU端的效率降低了功耗和冷却负载。实际节省取决于具体SKU、利用率和系统设计。
细节差异:每瓦性能和工作负载设计
苹果对苹果的比较很复杂。功耗必须与有效性能一起考虑:
每瓦性能取决于工作负载。如果每核性能或矢量计算能力与x86对应产品不同,ARM芯片的较低功耗可能会被部分抵消。相反,某些ARM和RISC-V设计可能在特定任务上表现出色,提高整体效率。
CPU利用率取决于AI堆栈。AI管道将工作负载卸载到GPU与CPU的程度显著影响CPU的能耗影响。数据预处理、模型编排、Token化、分片、输入输出和安全层可能会因设计而占用大量CPU资源。
软件生态系统和优化很重要。编译器成熟度、内核库和运行时优化影响各架构的绝对性能和效率。
由于这些因素,声称ARM、RISC-V或其他替代方案在能效方面普遍优于x86是不准确的。然而,对于匹配良好的工作负载和优化的堆栈,在能耗使用和冷却效率方面可以实现真正的收益。
总结
替代CPU架构可以在不牺牲能力的情况下改善AI数据中心的能效和热行为,但效果程度取决于工作负载如何实际使用CPU。关键问题是能耗和冷却节省以及潜在的性能提升是否足以证明硬件投资、软件适配和组织变革的合理性。
Q&A
Q1:ARM和RISC-V CPU相比x86有什么优势?
A: ARM和RISC-V CPU相比x86可以提供更好的每瓦性能和热特性,这对能耗密集型的AI工作负载很有价值。ARM在许多设计中能以较低的热设计功耗提供高核心数量,而RISC-V作为开放架构支持定制化和成本灵活性。
Q2:在AI服务器中CPU和GPU的功耗占比是怎样的?
A: 在以训练为中心的AI系统中,GPU通常占据大部分功耗。例如英伟达H100的功耗可达350-700W,而顶级x86服务器CPU功耗约为350-500W。虽然GPU设定了功耗底线,但CPU选择仍然影响总系统功耗和冷却负载。
Q3:选择替代CPU架构需要考虑哪些因素?
A: 需要考虑工作负载匹配度、每瓦性能表现、CPU利用率、软件生态系统成熟度和优化程度。还要评估能耗和冷却节省、潜在性能提升是否能证明硬件投资、软件适配和组织变革的合理性,因为不同架构在特定任务上的表现差异很大。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。