在半导体行业的一项令人瞩目的成就中,AMD宣布已超越其雄心勃勃的30x25能效目标,加速推进AI和高性能计算系统的绿色倡议。这一始于2020年的大胆目标旨在五年内将能效提升30倍,最终实现了令人瞩目的38倍改进——而且还提前完成了目标。随着行业面临AI工作负载日益增长的需求,AMD的最新成就不仅彰显了公司的技术实力,更体现了其在加速计算领域推动可持续解决方案的承诺。
AMD的能效整体策略
在与AMD首席技术官Mark Papermaster的简短交流中,我深入了解了公司如何为AI数据中心实现更绿色的环保足迹。Papermaster将公司的成功归功于芯片设计和系统架构的全面整体方法。"能效不是来自技术的单一方面,"Papermaster在我们的会议中解释道,"这不仅仅关乎硅片、芯粒,甚至软件。而是所有这些元素的结合——架构、设计、封装、软件,甚至数据中心基础设施——共同实现真正的规模化效率。"
这种集成方法在AMD MI300加速器的设计中得到了充分体现,在3D堆叠和芯片互连方面实现了关键进展。特别是后者,在提升GPU性能功耗比指标方面发挥了关键作用。正如Papermaster强调的,"当你垂直堆叠芯片时,与传统的横向设计方法相比,能效可以提升多达20倍。"
展望未来,AMD下一代芯片——昨天刚刚发布的AMD MI350系列——有望进一步突破极限。这些采用3nm GPU芯粒和新矩阵数学格式的尖端芯片,预计在上一代基础上将能效再提升35倍,使AMD能够更好地与英伟达最强大的Blackwell GPU和系统竞争。
超越AMD的30x25目标并设定标杆
尽管如此,虽然38倍能效提升是一个里程碑,但这并不是AMD的终点。正如AMD高级副总裁Samuel Naffziger在最近的公司发布中分享的,AMD已经将注意力转向下一个雄心勃勃的目标:到2030年实现机架级能效20倍改进。"到2030年实现机架级20倍目标反映了下一个前沿,不仅专注于芯片,还包括更智能、更高效的系统,从硅片到完整机架集成,以解决数据中心级别的电力需求,"Naffziger解释道。AMD已经证明节点级效率提升可以带来变革,但随着AI工作负载的扩展,最重要的影响将在系统层面。到2030年,AMD旨在为整个AI系统机架实现20倍能效改进。
此外,Papermaster解释说,这些效率目标是"AMD收购ZT Systems的动机之一,这样AMD现在拥有1000名机架设计工程师来帮助我们优化,最小化连接长度,尽可能提供能效提升点。"
这一以2024年为基准设定的新目标,标志着AMD对AI能效看法的重大转变。公司不再纯粹关注单个芯片性能,而是着眼于完整系统优化——从CPU和GPU到网络、内存和存储。这是另一个崇高目标,但在谷歌、AWS和Azure等超大规模服务商积极探索核电站为其饥渴数据中心供电的时代,这也是地球的必要目标。
对AI生态系统的影响及超越硬件的范围
这一到2030年实现20倍改进的新目标潜在影响巨大。根据AMD的预测,这一飞跃可以将典型AI机架的运营用电量减少95%以上,并将模型训练的碳排放从约3000公吨二氧化碳削减至仅100公吨。这些改进还承诺在运营效率方面实现巨大提升,有可能将275个机架整合为仅一个充分利用的机架。
此外,AMD的20x30愿景不仅限于硬件。虽然其能效目标主要关注硅片和系统设计,但公司承认软件也将发挥重要作用。随着软件开发者继续通过更高效的算法和更低精度、量化方法进行创新,到2030年整体AI效率可能提升多达100倍。
对AMD而言,这将通过与更广泛生态系统的合作新机遇来推动。通过其开源软件倡议,如ROCm(Radeon开放计算平台)软件栈,以及与OpenAI等AI创新者的密切合作,AMD正致力于将自己定位为可持续AI解决方案的关键推动者。
可持续性、效率和TCO优势的统一
随着AMD凭借30x25倡议的成功结束一个章节,公司已经为下一个重大效率挑战搭建舞台。将目标锁定在到2030年实现机架级20倍改进的目标上,公司正试图突破AI能效可能性的极限。"也要考虑总拥有成本方程。这关乎产品收费多少以及占用多少机房空间。还有功耗是多少?因为我必须为电力付费。这些都是TCO的要素。所以这种能效直接影响我们所有客户的购买考虑,"Papermaster指出。
无论如何,在这个AI加速一切的新时代,每一瓦特都至关重要,AMD显然致力于同时推动性能和能效。这些努力和目标可能有助于塑造行业如何负责任和可持续地扩展AI的未来。
好文章,需要你的鼓励
体验管理专家Qualtrics发布新AI功能Qualtrics Assist for CX,旨在缩短收集客户反馈与采取行动之间的差距。该副驾驶工具让管理者能直接探索客户体验数据,通过引导式洞察回答简单问题并提供数据支持的答案。公司每年处理12亿份调查数据,AI体验代理能理解客户需求并采取正确行动。然而调研显示,仅10%的组织能成功将体验数据转化为行动,澳洲高管在AI采用方面相对保守。
这项研究首次让AI学会了类似生物细胞分裂分化的能力,能从单一起始状态预测并追踪多个不同的发展路径。该技术突破了传统AI只能处理单一结果的局限,在医疗诊断、药物研发和生物研究等领域展现出巨大应用潜力,为AI系统处理复杂现实问题开辟了全新道路。
Quobyte首次公布其在MLPerf存储基准测试中的表现,在关键的3D-Unet基准测试中取得显著优势。该测试专门评估存储系统在模型训练时的数据供应能力,对确保昂贵GPU充分利用至关重要。Quobyte使用8节点集群配置,成功支持每客户端6个GPU达到90%效率,并声称是该测试中最快最高效的文件系统,在支持GPU数量、成本控制和能耗方面均表现出色。
这项研究提出了SWE-Flow框架,通过测试驱动开发方法自动生成AI编程训练数据。研究团队从真实GitHub项目中构建运行时依赖关系图,将复杂开发任务分解为循序渐进的步骤,生成了16061个训练实例。实验表明,使用该数据训练的AI模型在软件开发任务上表现显著提升,为AI编程能力提升提供了新思路。