Intel 正式错失数据中心 AI 市场良机

Intel 宣布取消 Falcon Shores GPU 项目,标志着其在数据中心 AI 加速器市场上挑战 NVIDIA 和 AMD 的希望破灭。此举使 Intel 在高端 GPU 领域再次失利,也意味着其下一代 GPU 架构可能还需一两年才能面世。尽管 Intel 仍有 Gaudi3 加速器,但在竞争激烈的市场中前景不明朗。

在上周四的财报电话会议上,Intel 再次放弃了一个 GPU 架构,这标志着该公司在 AI 加速器市场上与 Nvidia 和 AMD 竞争的希望彻底破灭。

临时联合 CEO Michelle Johnston Holthaus 透露,原计划于今年推出、旨在结合 Intel Xe 图形能力和 Gaudi AI 性能优势的 Falcon Shores 项目将永远停留在实验室阶段。"我们计划仅将 Falcon Shores 用作内部测试芯片,不会推向市场。"

这意味着 Intel 可能还需要一到两年才能推出下一代代号为 Jaguar Shores 的 GPU 架构,而且这还要假设它不会重蹈 Ponte Vecchio、Rialto Bridge 和现在的 Falcon Shores 的覆辙。

这已经不是 Intel 第一次或第二次终止开发能够与 Nvidia 甚至 AMD 竞争的 GPU 了。近两年前,Intel 砍掉了原定为美国 Aurora 超级计算机提供动力的数据中心级 GPU Max 芯片的继任者 Rialto Bridge。至少早期的 Max 芯片在美国阿贡国家实验室、英国的 Dawn 超级计算机和德国的 SuperMUC-NG Phase 2 系统中有过限量部署。

之所以说是限量,是因为 Intel 在 2024 年年中停止了 GPU Max 的生产,presumably 是为了专注于 Gaudi 系列加速器并为 Falcon Shores 的首秀做准备。

在这种背景下,Falcon Shores 的消亡似乎在所难免。Intel 的路线图原计划在 2024 年发布,但在 Rialto Bridge 被取消时推迟了一年。当时,Falcon Shores 项目包含了一个在单个封装中结合 CPU 和 GPU 芯片的 XPU 变体。到 2023 年中期,这些计划被缩减,只保留了更传统的 GPU 方案。现在 Falcon Shores 基本上完全终止了。

那么 Gaudi 呢?

尽管在高端 GPU 上的三次尝试只成功了一次,但 Intel 并未完全退出 AI 领域。该 x86 厂商仍然拥有 Gaudi3 加速器。

从理论数据来看,这款在四月份发布的专用 AI 加速器表现不俗。它在 8 位或 16 位精度下可提供 1,835 teraFLOPS 的密集浮点性能。对于通常以 BF16 运行的计算密集型工作负载,Gaudi3 的性能几乎是 Nvidia H100 或 H200 的两倍。

对于推理等内存密集型工作负载,Gaudi3 配备了 128GB HBM2e 内存,带宽达 3.7 TBps,使其能够处理比 Nvidia H100 更大的模型,同时理论上提供更高的吞吐量。

不幸的是,Gaudi3 已不再与 H100 竞争。虽然它在 2024 年初亮相,但直到去年年底才开始向系统制造商少量供货,计划在本季度全面上市。

这意味着潜在买家现在要将其与 Nvidia 的 Blackwell 和 AMD 的 MI325X 系统进行比较。在训练方面,Blackwell 提供更高的浮点精度、更多更快的内存以及更大的扩展域。与此同时,AMD 的 MI325X 拥有两倍的容量和高出 62% 的内存带宽,在内存容量和带宽至关重要的推理任务中占据优势。

这可能解释了为什么尽管时任 CEO Pat Gelsinger 坚称 Gaudi3 将在 2024 年下半年带来超过 5 亿美元的加速器收入,Intel 最终仍未达到这一目标。而且这还是在与 Nvidia 相比具有极具竞争力的价格优势的情况下。

造成这种情况的原因可能有很多,从系统性能到竞争对手软件生态系统的成熟度都有可能。然而,Intel 更大的问题是 Gaudi3 是一个没有后续的平台。

它的继任者本应该是 Falcon Shores 的一个变体,据我们了解,这个变体原本计划将其巨大的脉动阵列与 Intel 的 Xe 图形架构相结合。

也许我们会看到 Gaudi3 在 2025 年取得一些进展,但考虑到完全没有升级路径,以及对 Jaguar Shores 的不确定性,很少有人会在有其他具有明确路线图和成功记录的芯片设计商的替代平台的情况下冒这个风险。

Intel 在 AI 数据中心的地位日益缩小

无论数据中心运营商最终购买哪种 GPU 或 AI 加速器,他们仍然需要主机 CPU,因此 Intel 不会完全被排除在 AI 数据中心之外。

Holthaus 本周向华尔街表示:"我们在 AI 服务器的主机 CPU 方面处于领先地位,随着 AI 融合应用的普及,我们继续看到本地和边缘 CPU 推理的重要机遇。"

去年推出的 Intel Granite Rapids Xeon 已证明是其多年来最具竞争力的产品,拥有高达 128 核心、256 线程,支持 8,800 MT/s MRDIMM,每个插槽最多 96 条 PCIe 5.0 通道。

然而,这个领域的竞争也越来越激烈。AMD 在数据中心的 Epyc 处理器系列持续取得的进展令人难以忽视。根据 Mercury Research 的数据,AMD 现在占据服务器 CPU 市场约 24.2% 的份额。

同时,长期使用 Intel CPU 的 Nvidia,在其多代 DGX 参考设计中都采用了 Intel 的处理器,现在越来越依赖其基于 Arm 的 Grace 处理器来支持其顶级加速器。Nvidia 仍然支持我们熟悉的每系统八个 GPU 的 HGX 规格,因此 Intel 仍然可以在这个领域争取份额——至少目前如此。

但是,随着 AMD 强调其 Turin 一代 CPU 对 GPU 服务器的优化程度,我们预计供应商在某种程度上会倾向于采用全 AMD 配置,即 Epyc 和 Instinct 的组合,这进一步限制了 Intel 在这个领域的竞争能力。

边缘机遇

虽然 Intel 在数据中心利用 AI 热潮的机会正在减少,但它在网络边缘和 PC 领域仍有机会。

像大多数个人计算机硬件制造商一样,早在 Microsoft 公布其 40 TOPS Copilot+ 性能要求之前,Intel 就开始大力宣传 AI PC。

虽然这导致了一个尴尬的局面,即在几个月内 Qualcomm 是唯一一家兼容 Copilot+ 的处理器供应商,但 AMD 和 Intel 都通过在七月和九月分别推出 Strix Point 和 Lunar Lake 赶上了进度。

正如我们在 Computex 上探讨的那样,Lunar Lake 在 GPU 和 CPU 之外还配备了一个 48 TOPS 的 NPU,Intel 声称这些片上系统可以在三者之间提供总计 120 TOPS 的系统性能。

更重要的是,Intel 仍然控制着 PC CPU 市场的主要份额。

虽然这些 AI 功能最终对 PC 客户有多重要仍有待讨论,而且 Intel 在 PC 高端市场面临来自 AMD、Qualcomm 和 Nvidia 的激烈竞争,但它仍然稳固地参与其中。

除了新兴的 AI PC 市场,Intel 的 CPU 战略还可能帮助其在网络边缘取得胜利。在这里,它可以利用从 Sapphire Rapids 开始就已经集成到其 CPU 中的 Advanced Matrix Extensions (AMX) 计算单元,无需 GPU 就能运行机器学习和生成式 AI 工作负载。

Intel 此前已经演示过,由于其 MRDIMM 内存支持,其 Granite Rapids Xeon 可以以合理的每秒 12 个 token 的速度运行经过 4 位量化的 700 亿参数 LLM。

推算这一性能,我们预计对于 80 亿参数的模型,在批量大小为 1 的情况下,生成速率可达每秒约 100 个 token。正如我们之前详细探讨过的,仅使用 CPU 的 AI 在经济性上仍然不太理想,批量大小是限制因素之一。

但是,对于可能只需要定期运行模型的网络边缘设备来说,这不仅不是问题,而且与基于 GPU 的解决方案相比,还可能有助于减少复杂性和故障点。

不要过早排除东山再起的可能

如果 AMD 在后 Bulldozer 时代的重生能教会我们什么,那就是不要过早排除 Intel 东山再起的可能性。

当 Ryzen 和 Epyc 在 2010 年代后期首次亮相时,这些产品并不是性能最强的,但它们具有差异化优势,为客户提供了他们无法从 Intel 获得的东西:大量价格实惠且足够好用的核心。

在 GPU 领域,AMD 采用了类似的策略,首先专注于在高性能计算 (HPC) 应用中提供比 Nvidia 更好的性能。这帮助 AMD 为其 Instinct 加速器赢得了美国的 Frontier 和最近的 El Capitan 超级计算机等多个重要项目。

通过 MI300 系列加速器和向 AI 的转型,AMD 再次实现了差异化,目标是提供比 Nvidia 更大的内存容量。这帮助它赢得了 Microsoft 和 Meta 等主要超大规模数据中心和云服务提供商的订单,这些公司试图降低包括推理在内的内存密集型工作负载的成本。

我们提到这一点是因为放弃 Falcon Shores 的决定为 Intel 提供了一个重新开始的机会,可以构建一个不受不再代表市场实际需求的架构决策限制的产品。

将 Jaguar Shores 重新聚焦于机架级设计的决定是未来发展的一个积极信号。如果 Intel 能找到一种方法使其下一代 GPU 实现差异化,并提供客户想要但无法从竞争对手那里获得的东西,它至少有机会在数据中心重新站稳脚跟。

来源:The Register

0赞

好文章,需要你的鼓励

2025

02/05

14:16

分享

点赞

邮件订阅