AI性能优化已演进为系统工程挑战而非单纯硬件竞争

SiliconData独立研究显示,相同GPU在不同系统架构下表现差异巨大。现代AI工作负载默认采用分布式部署,数据中心本身成为超级计算机。研究发现,数据移动而非原始计算能力正成为AI性能瓶颈。Lambda等厂商通过优化互连性能和系统平衡获得优势。AI已进入系统时代,基础设施设计而非芯片规格决定真实性能表现。

最新独立研究揭示AI基础设施的关键转变

最近由SiliconData进行的独立研究显示,下一代人工智能基础设施的关键不在于单一的图形处理器或加速器性能,而在于围绕硅片构建的整体系统架构。

GPU不再是差异化因素,系统才是真正的决定因素。

性能测量方法

要理解为什么相同的GPU在生产环境中会产生截然不同的结果,首先需要了解这项性能是如何被测量的。

SiliconData的SiliconMark(TM)是一个独立的第三方GPU基准测试平台,专为系统级AI工作负载设计。该平台不是孤立测试GPU,而是测量计算吞吐量、内存带宽、互连、功耗行为和性能差异等真实世界性能指标,揭示相同硬件在真实生产系统中部署后的实际表现。

对于多GPU和多节点集群,SiliconMark(TM)还测量节点间带宽和延迟,使评估现代AI环境中最重要的因素成为可能:真正的计算单位是系统,而不是芯片。

这种系统级方法使研究结果特别具有启发性,也解释了为什么传统GPU基准测试经常错失的架构差异如此重要。

在超过千次真实世界基准测试运行中,相同的加速器根据周围基础设施的设计、配置和操作方式产生了显著不同的结果。计算吞吐量、内存带宽、互连性能、功耗行为和差异都会基于系统架构发生变化。结论不可避免:AI已进入系统时代,基础设施设计——而非仅仅芯片规格——决定了真实性能。

正如一位基础设施领导者简洁地表示:"计算单位不再是GPU——而是数据中心。"

从GPU到伪装成数据中心的超级计算机

现代AI工作负载默认就是分布式的。大规模训练和推理现在跨越数千甚至数万个加速器。在这种模式下,数据中心本身成为了计算机,性能来自于计算、网络、内存和软件作为单一系统的协同设计效果。

英伟达高级副总裁Gil Shainer清楚地描述了核心挑战:"分布式AI只有在数千个加速器表现得像一台超级计算机时才能工作。这需要超低抖动、确定性的互连——否则GPU只是在等待数据。"

换句话说,限制因素不再是单个GPU能以多快速度独立运行,而是整个系统移动数据、同步工作和在负载下维持可预测行为的效率。

红线方法:规模化工业AI

独立研究中的一类基础设施提供商体现了高度工业化的AI方法。这些环境始终提供最高且最可预测的计算性能。突出的不仅是峰值吞吐量,还有一致性——紧密的性能分布、最小差异以及几乎相同的平均值和中位数结果。

这种特征表明了深思熟虑的设计选择:系统推向接近热量和功率极限、高度标准化的硬件配置、严格控制的软件栈、为持续吞吐量而非灵活性优化的环境。

这些平台表现得像经典的AI工厂——设计用于大规模运行,承受负载,产生可重复的结果。对于可预测性比适应性更重要的大型计算密集型工作负载,这种方法设定了性能上限。

性能真正获胜之处:数据移动

研究中的第二个性能模式揭示了日益重要的一点:数据移动,而非原始数学计算,正在成为现代AI工作负载的瓶颈。

当你将数据中心视为一台超级计算机时,结构的效率决定了你实际能获得多少计算能力。

今天的AI应用不再以长时间、不间断的训练运行为主。它们越来越多地涉及频繁的数据摄取、检索增强生成管道、模拟和合成数据工作流程、协调CPU、加速器和内存的智能体系统。

在这些场景中,GPU经常停滞不是因为缺乏计算能力,而是因为数据没有及时到达。

运营商持续报告在真实工作负载中由于内存碎片、有限的KV缓存容量和缓慢或争用的数据路径导致的低模型浮点利用率。改善互连带宽、内存层次结构和系统平衡已成为提高每瓦和每机架可用性能的最有效方法之一。

底线是:AI性能的约束越来越多的是操作性的,而非技术性的。更好的系统设计在现有基础设施投资上产生更高回报。

Lambda作为系统优先设计的案例研究

在这种背景下,Lambda在独立数据中脱颖而出——不是因为它不惜一切代价追求峰值理论计算,而是因为其架构反映了关于AI系统应该如何构建和使用的不同理念。

在研究中,Lambda始终展现出卓越的主机到设备和设备到主机带宽,接近现代互连的实际极限。这种设计选择与应用驱动的AI工作负载现实密切相关,在这些场景中,高效地通过系统移动数据往往比榨取原始计算的最后一个百分点更重要。

这种对互连性能的强调带来了权衡:与严格标准化环境相比有更大的可变性。但这种可变性最好被理解为灵活性的体现,而非脆弱性。

可变性作为特性而非缺陷

更灵活的系统自然会暴露更广泛的配置和性能档案。对于AI原生开发者来说,这种可变性通常转化为更快的实验、更清晰的瓶颈诊断,以及根据应用需求调整基础设施而不是适应单一刚性性能包络的能力。

正如一位基础设施专家所说,灵活性允许系统为真实工作负载而非仅仅基准测试进行优化。这在模型开发和迭代期间尤其相关,此时开发者控制和可见性可能比绝对一致性更有价值。

为什么这与AI原生开发者产生共鸣

对于专注应用的团队,关键挑战很少是最大化标题FLOPS,而是最小化想法和执行之间的摩擦。

正如Lambda创始团队成员Robert Brooks IV所说:"大多数机器学习工程师不是DevOps专家。系统应该消失,这样他们就可以专注于模型。"

Lambda的设计理念反映了这一现实。通过抽象掉大部分基础设施管道工作——驱动程序、集群设置和软件漂移——同时在简单性节省时间的地方保持固执己见,Lambda旨在为开发者提供一个既支持快速实验又提供在相同底层架构上扩展路径的平台。

更大的转变:AI工厂作为运营模式

研究的更深层洞察不是比较性的——而是进化性的。

AI工厂不再仅仅是加速器的集合。它们是运营模式,由整个系统的设计、集成和运行效果来定义。规模化性能现在来自于以下要素的协调:电力传输和热工程、内存层次结构和带宽、互连设计、调度和编排、软件标准化、可靠性、可维护性和遥测技术。

这种转变在架构层面得到了最明确的阐述。正如黄仁勋在去年GTC上台所说:"网络已成为AI工厂的操作系统。"

但影响延伸到机架和集群之外,到达物理数据中心本身。在最近关于AI工厂——未来数据中心的节目中,Lambda的Kenneth Patchett从基础设施前线提供了一个扎实的观点:

"真正的稀缺性不是GPU——而是为AI规模系统设计的数据中心。"

Patchett强调了一种模块化、基于元素的方法,其中电力、水、空气和物理布局被视为一流的设计变量,并在机械、电气和管道学科之间进行紧密协调的工程设计。他认为,这种系统思维是允许基础设施与快速迭代的计算和网络技术一起演进的原因。

从这个意义上说,AI工厂不再仅仅是在数据中心内运行的东西。它就是数据中心。

为什么这很重要

我们已经超越了仅凭芯片规格定义AI性能的时代。AI现在是一个系统工程问题,最有意义的创新发生在如何为真实工作负载架构完整系统上。独立数据清楚地表明了这一点。

Lambda的结果说明了优先考虑互连、系统平衡和开发者体验如何释放仅靠原始硅片无法实现的价值。

这个下一阶段的赢家不会仅仅组装加速器。他们将设计平衡的、应用感知的AI工厂,让开发者能够更快地移动,更清晰地推理性能,并构建行为符合现代AI实际运作方式的系统。

这才是真正的圣杯。

Q&A

Q1:什么是SiliconMark(TM)基准测试平台?它与传统GPU测试有何不同?

A:SiliconMark(TM)是SiliconData开发的独立第三方GPU基准测试平台,专为系统级AI工作负载设计。与传统GPU测试不同,它不是孤立测试GPU,而是测量真实世界的计算吞吐量、内存带宽、互连、功耗行为和性能差异,揭示相同硬件在真实生产系统中的实际表现。

Q2:为什么说数据移动比原始计算能力更重要?

A:现代AI应用越来越多地涉及频繁的数据摄取、检索增强生成管道、模拟和合成数据工作流程等。在这些场景中,GPU经常停滞不是因为缺乏计算能力,而是因为数据没有及时到达。改善互连带宽、内存层次结构和系统平衡已成为提高每瓦和每机架可用性能的最有效方法。

Q3:Lambda在AI基础设施方面有什么独特优势?

A:Lambda在研究中展现出卓越的主机到设备和设备到主机带宽,接近现代互连的实际极限。其设计理念强调抽象掉基础设施复杂性,让机器学习工程师能够专注于模型开发而非DevOps工作,同时提供既支持快速实验又能扩展的平台。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2026

01/12

08:06

分享

点赞

邮件订阅