在半导体行业的一项令人瞩目的成就中,AMD宣布已超越其雄心勃勃的30x25能效目标,加速推进AI和高性能计算系统的绿色倡议。这一始于2020年的大胆目标旨在五年内将能效提升30倍,最终实现了令人瞩目的38倍改进——而且还提前完成了目标。随着行业面临AI工作负载日益增长的需求,AMD的最新成就不仅彰显了公司的技术实力,更体现了其在加速计算领域推动可持续解决方案的承诺。
AMD的能效整体策略
在与AMD首席技术官Mark Papermaster的简短交流中,我深入了解了公司如何为AI数据中心实现更绿色的环保足迹。Papermaster将公司的成功归功于芯片设计和系统架构的全面整体方法。"能效不是来自技术的单一方面,"Papermaster在我们的会议中解释道,"这不仅仅关乎硅片、芯粒,甚至软件。而是所有这些元素的结合——架构、设计、封装、软件,甚至数据中心基础设施——共同实现真正的规模化效率。"
这种集成方法在AMD MI300加速器的设计中得到了充分体现,在3D堆叠和芯片互连方面实现了关键进展。特别是后者,在提升GPU性能功耗比指标方面发挥了关键作用。正如Papermaster强调的,"当你垂直堆叠芯片时,与传统的横向设计方法相比,能效可以提升多达20倍。"
展望未来,AMD下一代芯片——昨天刚刚发布的AMD MI350系列——有望进一步突破极限。这些采用3nm GPU芯粒和新矩阵数学格式的尖端芯片,预计在上一代基础上将能效再提升35倍,使AMD能够更好地与英伟达最强大的Blackwell GPU和系统竞争。
超越AMD的30x25目标并设定标杆
尽管如此,虽然38倍能效提升是一个里程碑,但这并不是AMD的终点。正如AMD高级副总裁Samuel Naffziger在最近的公司发布中分享的,AMD已经将注意力转向下一个雄心勃勃的目标:到2030年实现机架级能效20倍改进。"到2030年实现机架级20倍目标反映了下一个前沿,不仅专注于芯片,还包括更智能、更高效的系统,从硅片到完整机架集成,以解决数据中心级别的电力需求,"Naffziger解释道。AMD已经证明节点级效率提升可以带来变革,但随着AI工作负载的扩展,最重要的影响将在系统层面。到2030年,AMD旨在为整个AI系统机架实现20倍能效改进。
此外,Papermaster解释说,这些效率目标是"AMD收购ZT Systems的动机之一,这样AMD现在拥有1000名机架设计工程师来帮助我们优化,最小化连接长度,尽可能提供能效提升点。"
这一以2024年为基准设定的新目标,标志着AMD对AI能效看法的重大转变。公司不再纯粹关注单个芯片性能,而是着眼于完整系统优化——从CPU和GPU到网络、内存和存储。这是另一个崇高目标,但在谷歌、AWS和Azure等超大规模服务商积极探索核电站为其饥渴数据中心供电的时代,这也是地球的必要目标。
对AI生态系统的影响及超越硬件的范围
这一到2030年实现20倍改进的新目标潜在影响巨大。根据AMD的预测,这一飞跃可以将典型AI机架的运营用电量减少95%以上,并将模型训练的碳排放从约3000公吨二氧化碳削减至仅100公吨。这些改进还承诺在运营效率方面实现巨大提升,有可能将275个机架整合为仅一个充分利用的机架。
此外,AMD的20x30愿景不仅限于硬件。虽然其能效目标主要关注硅片和系统设计,但公司承认软件也将发挥重要作用。随着软件开发者继续通过更高效的算法和更低精度、量化方法进行创新,到2030年整体AI效率可能提升多达100倍。
对AMD而言,这将通过与更广泛生态系统的合作新机遇来推动。通过其开源软件倡议,如ROCm(Radeon开放计算平台)软件栈,以及与OpenAI等AI创新者的密切合作,AMD正致力于将自己定位为可持续AI解决方案的关键推动者。
可持续性、效率和TCO优势的统一
随着AMD凭借30x25倡议的成功结束一个章节,公司已经为下一个重大效率挑战搭建舞台。将目标锁定在到2030年实现机架级20倍改进的目标上,公司正试图突破AI能效可能性的极限。"也要考虑总拥有成本方程。这关乎产品收费多少以及占用多少机房空间。还有功耗是多少?因为我必须为电力付费。这些都是TCO的要素。所以这种能效直接影响我们所有客户的购买考虑,"Papermaster指出。
无论如何,在这个AI加速一切的新时代,每一瓦特都至关重要,AMD显然致力于同时推动性能和能效。这些努力和目标可能有助于塑造行业如何负责任和可持续地扩展AI的未来。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。