AMD押注机架级计算架构，力争到2030年AI效率提升20倍

随着摩尔定律接近极限和数据中心功耗问题日益突出，AMD制定了到2030年将芯片能效提升20倍的宏伟目标，并将机架级架构视为关键设计方向。AMD高级副总裁表示，设备规模越大效率越高，机架级计算能将整个机架的计算设备集成到单一封装中。AMD计划明年推出首个机架级计算平台MI400，未来五年内光学互连可能取代铜质连接。除硬件创新外，软硬件协同设计将是实现目标的关键因素。

随着摩尔定律接近终点，数据中心功耗问题日益严峻，AMD正在制定雄心勃勃的新目标：到2030年将芯片能效提升20倍。该公司认为机架级架构是实现这一目标的关键设计要素。

"这里有一个反直觉的现象......设备越大，效率越高，"AMD高级副总裁兼院士Sam Naffziger表示。"我们正在将过去需要整个机架的计算设备整合到单一封装中。"

AMD率先将这一理念应用于CPU和GPU，采用芯片组架构克服了掩模版尺寸限制，从每瓦功耗中榨取更多性能。

这一设计理念的终极体现是AMD的MI300系列APU和GPU，它们形成了由3D堆叠计算单元、I/O芯片和中介层组成的密集三明治结构。

**机架级解决方案**

如今，AMD正将目光投向芯片封装和节点之外的机架级设计，以在未来几年推动效率提升。

"这是我们能够持续显著改进的方式——几乎在数据中心层面进行架构设计，"Naffziger说道。

AMD并非首家得出这一结论的公司。去年GTC大会上，英伟达发布了首个机架级系统GB200 NVL72。

传统上，两家公司的GPU系统都使用NVLink或InfiniBand等高速互连技术来整合资源，让四个或八个加速器协同工作如同一个大型单元。

在GB200 NVL72中，英伟达将这种扩展网络延伸到机架级别，使用18个NVLink交换芯片让这个120kW巨兽的72个Blackwell GPU协同运作。

今年春季，英伟达公布了将此架构扩展到144个乃至576个GPU的计划，功耗可达600kW。

然而，这一理念的历史可以追溯得更远。

"机架级实际上是重新发明了IBM在80年代通过共享内存空间、加载和存储实现的扩展多处理技术，"但现在我们讨论的不是几十台System/370大型机，而是数十个、甚至数百个GPU，Naffziger如此表示。

AMD首个机架级计算平台计划于明年随MI400发布一同推出。Naffziger表示它将遵循与英伟达NVL系统相同的基本模式，但使用通用加速器链路UALink互连而非NVLink。不过，未来的设计可能会有很大不同。

值得注意的是，Naffziger预计光子互连可能在未来五年内取代扩展结构中的铜线。共封装光学器件(CPO)长期以来一直承诺提供比铜缆或走线更大的带宽和传输距离，但激光器功耗增加的问题一直制约着其发展。

"一切都由经济性驱动，我们已经到了经济性将偏向光学的时点，"Naffziger说道。

尽管共封装光学器件优势明显，但它并不完美。

"光学器件存在温度敏感性，"Naffziger表示。"比电气方面需要担心的问题多得多......现在我们必须布置光纤连接并确保其机械稳定性，不易受振动影响。"

这或许解释了为什么英伟达将早期光子技术重点放在横向扩展的以太网和InfiniBand网络上，而非专用的芯片间互连。大多数大规模光子交换机已经需要大量使用高功耗的可插拔光学器件。因此，英伟达在首批光子交换机中使用CPO来消除对这些设备的需求。

然而，对于NVLink交换结构，该公司似乎选择提高机架密度（到2027年达到600kW）以继续使用铜线。

**硬件软件协同设计是关键**

在AMD准备扩大规模之际，Naffziger指出工艺技术和半导体封装改进将继续在实现20x30目标中发挥作用。

"摩尔定律仍有残余影响，"他说。"我们必须使用最新的工艺节点。"

虽然工艺技术缩小速度不如从前，但仍有改进空间——特别是在内存方面。

Naffziger指出3D堆叠和高带宽内存(HBM)的基础芯片定制化是降低每比特能耗和减少整体功耗的潜在途径。

HBM目前占据了加速器功耗的很大一部分。从MI300X的192GB跳跃到MI325X的256GB时，功耗增加了250W。因此，任何能够在提供更高带宽和容量的同时抑制功耗的封装技术都值得研究。

即使在机架级规模下，Naffziger表示"最大的改进将来自硬件软件协同设计的成果。纯硬件收益正在达到递减回报。"

AMD在软件方面一直落后，特别是在底层开发方面。然而，自MI300X推出一年半以来，情况已有显著改善。

该公司投入大量资源优化其ROCm软件栈，以支持包括vLLM、SGLang和PyTorch在内的各种流行推理和训练平台。

这些努力通过几项收购得到加强，包括Nod.ai、Mipsology和Brium。AMD也积极吸引AI人才。最近，AMD友好型初创公司Lamini的CEO Sharon Zhou宣布加入AMD的AI软件团队，该公司专注于帮助企业调优大语言模型以减少幻觉现象。

"当我们谈论机架级目标时，系统架构、系统设计、改进组件、集成以及降低通信成本方面确实存在巨大机遇，"Naffziger说道。"但我们必须在硬件上优化映射工作负载。"

FP8以及现在的FP4支持就是一个例子。在模型层面，这些低精度数据类型提供了诸多优势，以通常难以察觉的输出质量降低换取更小的内存占用。同时，精度减半通常会使加速器的浮点输出翻倍。

然而，软件需要时间来跟上这些新数据类型。从MI300X发布到流行的vLLM推理引擎扩展对AMD的FP8实现的硬件支持，用了将近一年时间。

软件可能是释放AMD硅片全部潜力的关键，但在性能测量方面也带来了挑战，特别是AI工作负载。

AI生态系统发展极快。几个月内，一个模型就可能从前沿技术变为过时产品。"我们不能假设Llama 405B在2030年仍然存在并具有意义，"Naffziger说道。

因此，对于AMD的20x30目标，公司将使用GPU FLOPS、HBM和网络带宽的组合来跟踪进展，这些指标在推理和训练中的权重有所不同。

来源：The Register

0赞

好文章，需要你的鼓励

AMD押注机架级计算架构，力争到2030年AI效率提升20倍

来源：The Register

2025

06/13

10:26

分享

点赞

“驯服”千亿模型，鏖战“黑猴打瓦”，龙虾“一键接管” ，锐龙AI Max+ 395开启全能桌面AI主机“王炸”时刻

豪声电子泰国电声工厂初步投产：2500万泰铢项目进入产能爬坡

地瓜机器人将560TOPS端侧算力，加载到了20+头部团队机器人中

WAIC 2026主论坛（下午场）重磅揭晓！

AI评测初创公司Braintrust遭入侵，敦促所有客户轮换API密钥

牙科诊所软件漏洞修复：患者医疗记录曾遭泄露

关键基础设施巨头Itron确认遭遇网络攻击

Vercel数据泄露范围扩大，黑客早于已知时间节点已入侵

苹果与博通签署300亿美元协议，共同生产美国本土无线芯片

摩托罗拉领投BRINC 1.25亿美元，推动紧急救援无人机大规模扩张

AI赋能芯片设计：前景广阔，疑问犹存

Arm今夏将推出自研芯片，Meta成首批客户

Multiverse Computing获2.15亿美元融资，推进量子启发AI模型压缩技术

Databricks全面发力企业AI：推出智能代理与数据库解决方案应对复杂性挑战

苹果最新研究挑战 AI 模型是否真正通过问题进行 "推理"

AI 的重大互操作性转折点：为何 A2A 和 MCP 对代理协作至关重要

OpenAI宣布o3价格下调80%，其最强推理大语言模型更易获取

微软支持的 Mistral 推出欧洲 AI 云，以对抗 AWS 和 Azure

Meta推出超现实AI视频编辑器

星巴克酿制 AI 助力咖啡师而非取代他们

AlphaOne 为 AI 开发者提供控制大语言模型"思考"的新旋钮，提升性能表现

Scale AI 和 Alexandr Wang 能否重新点燃 Meta 的 AI 雄心？

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: