超级计算领域正在发生分裂。曾经相对统一的大规模多处理器x86系统世界已经分化为相互竞争的架构,每种架构都在竞相服务于截然不同的需求:传统学术工作负载、极端规模的物理仿真以及AI训练的巨大需求。
Nvidia站在这场变革的中心,其GPU革命不仅仅是取得了进展,而是彻底颠覆了旧有秩序。
后果十分严峻。曾经推动数十年科学突破的传统存储系统,如今在AI无情的随机I/O风暴下不堪重负。原本设计用于顺序吞吐量的设施面临新的现实:元数据可能消耗所有I/O操作的20%。随着GPU集群扩展到数千台,一个残酷的经济真相浮现:GPU的每一秒闲置时间都在烧钱,这将存储从支持功能转变为决定成败的竞争优势。
我们采访了VDURA公司CEO Ken Claffey,了解这一地震级变化如何迫使超级计算基础设施从硬件到软件、从架构到经济学的全面重新思考。
超级计算机和HPC系统定义以及区别
这些界限确实很模糊且日益模糊。历史上,区别主要在于系统的规模(节点数量),因为商用服务器的Linux集群成为了事实上的构建模块(而不是之前的定制超级计算机,如早期的Cray系统或NEC矢量超级计算机)。如今,传统的工作组、部门、分部和超级计算机的细分可能需要更新,因为小型GPU集群的价值现在已经足以被分析师归类为超级计算机销售。
超级计算机的不同类型
并非所有超级计算机都相同。目前存在Linux集群超级计算机,这些系统主导着当今的Top500榜单。它们由数千台通过InfiniBand、以太网或专有互连连接的商用服务器构建。变种包括:
具有分布式内存的大规模并行集群(例如,美国能源部的Frontier系统)。每个节点运行自己的操作系统并通过消息传递进行通信。
由现成x86/GPU服务器构建的商用集群;超大规模AI集群属于此类。
不同的工作负载偏好不同的架构:CPU密集型、GPU密集型或内存中心型。天气和物理仿真受益于具有低延迟互连的矢量或大规模并行集群。
现代AI训练通常使用GPU密集型商用集群。
专用系统服务于加密或模式匹配等狭窄领域,但在AI相关用例中重新获得关注,特别是在推理、Grok、SambaNova等方面。
Nvidia NVL72机架规模GPU服务器
Nvidia将其GB200 NVL72描述为"机架中的百亿亿次AI超级计算机"。每个NVL72包含18个计算托盘(72个Blackwell GPU与Grace CPU配对),通过第五代NVLink交换机连接,提供130 TBps的互连带宽。NVLink结构创建了一个统一的内存域,总带宽超过1 PB/s,一个NVL72机架可以提供80 petaflops的AI性能和1.7 TB的统一HBM内存。
从纯粹的HPC角度来看,单个NVL72更准确地说是一个机架规模的构建模块而非完整的超级计算机,它缺乏完整HPC所需的外部存储和集群管理层。但当数十或数百个NVL72机架与高性能存储(例如VDURA V5000)互连时,生成的系统绝对符合超级计算机的标准。因此,NVL72处于边界:一个极其密集的GPU集群,可以成为更大HPC系统的一部分。
高带宽内存(HBM)技术发展
高带宽内存(HBM)通过硅通孔堆叠DRAM芯片,提供千位宽接口;HBM3e每GPU可提供高达1.8 TB/s的带宽。HBM并非Nvidia独有,AMD的MI300A/MI300X、Intel的Ponte Vecchio和许多AI加速器都使用HBM,因为以TB/s速度流式传输数据对于满足饥渴核心至关重要。HBM采用取决于经济性和封装设计:GPU可以证明成本合理,因为它们提供非常高的每瓦浮点运算,而通用CPU通常依赖带宽较低的DDR/LPDDR内存。
超级计算对AI工作负载的反应
AI革命已将HPC设施转变为AI工厂。从客户那里可以清楚地看到,随着用户部署越来越多基于AI的应用程序,他们的应用程序环境正在发生变化,这为HPC基础设施带来了新的挑战,因为他们增加了集群中的GPU数量。这反过来影响存储,因为AI应用程序以GPU为中心,创建尖峰、随机I/O模式,导致元数据成为I/O的10-20%。训练和推理都需要持续吞吐量:Nvidia建议DGX B200服务器每GPU需要0.5 GBps读取和0.25 GBps写入,视觉工作负载每GPU高达4 GBps。这意味着10,000 GPU集群需要5 TBps读取和2.5 TBps写入带宽。
为满足这一需求,HPC中心正在采用并行文件系统和NVMe优先架构。AI训练仍然依赖高吞吐量并行文件系统来供给GPU和处理大规模检查点,而推理工作负载转向对象存储和键值语义,需要强大的元数据性能和多租户。
HPC存储的演进
HPC存储已从专有的、硬件绑定架构演进为软件定义的横向扩展系统,专为AI和GPU驱动的工作负载而设计。此外,虽然HPC很大程度上是基于临时/Scratch性能文件系统的概念设计的,但AI更专注于持续性能和更广泛的SLA,更关心运营可靠性。
从专有到软件定义:早期HPC依赖具有HA配对和专用RAID控制器的封闭系统。现代平台已转向与超大规模云提供商设计一致的SDS模型,包含NVMe节点和开放供应链的无共享架构,可在商用硬件上水平扩展。
主要存储系统差异
超级计算存储沿着传统硬件绑定系统和为AI和数据密集型工作负载构建的现代软件定义架构之间的清晰界线分化。
行业正在从硬件定义的"系统"(控制器对、专有阵列)转向在商用NVMe和HDD介质上运行的软件定义存储(SDS)"平台"。SDS实现更快创新、混合介质分层(SLC、TLC、QLC闪存+ CMR/SMR HDD)、元数据加速和云端可扩展性——这是VDURA架构的基础。
DAOS发展现状
DAOS是一个开源项目。目前,它更多被视为技术集合而非成品。现在它隶属于HPE,我预期他们会投资使其成为真正的产品,就像我在ClusterStor对Lustre所做的那样。这需要多年的大量投资、大规模部署和运营成熟度才能从"项目"变为"产品"。
吞吐量对AI工作负载的重要性
IOPS(每秒输入/输出操作)衡量存储系统可以执行多少个小的4 KiB操作。这对事务数据库和VM是很好的指标。但AI和HPC工作负载流式传输大型数据集和检查点。专注于IOPS可能会误导:AI工作负载是吞吐量驱动的,以GBps或TBps衡量,因为它们移动大型顺序数据集。高带宽确保GPU保持忙碌,检查点不会停滞训练。并行文件系统在许多节点间分布数据以提供这种聚合带宽。没有足够的吞吐量,GPU就会挨饿,昂贵的计算周期就会浪费。
VDURA的V5000系统每节点提供超过60 GBps,每机架超过2 TBps。这确保AI管道受限于模型复杂性而非存储。VDURA还每机架提供高达1亿IOPS,因此它也能处理元数据密集的推理工作负载。
并行存储系统的优势
绝对如此。像NetApp ONTAP这样的非并行NAS系统依赖少数控制器处理I/O。正如我之前指出的,通用NAS无法提供AI所需的吞吐量或弹性。NetApp的AFX是他们尝试并行文件系统的努力。主流存储系统是为通用计算设计的。
在明确承认AI中的高级计算时,NetApp已经承认他们需要一种新型产品,即并行文件系统。他们没有为未来做好准备,现在正试图追赶。
Q&A
Q1:什么是GPU集群,为什么它对AI训练如此重要?
A:GPU集群是由数千台通过高速网络连接的GPU服务器组成的系统。对AI训练极其重要是因为现代AI训练需要持续高吞吐量,比如10,000个GPU的集群需要5 TBps读取和2.5 TBps写入带宽,而且GPU的每一秒闲置时间都在烧钱,使存储性能成为决定成败的关键因素。
Q2:传统存储系统为什么无法满足AI工作负载需求?
A:传统存储系统是为顺序吞吐量设计的,但AI应用程序创建尖峰、随机I/O模式,元数据占I/O操作的10-20%。像NetApp ONTAP这样的非并行NAS系统依赖少数控制器处理I/O,无法提供AI所需的吞吐量或弹性,因此主流厂商现在都在开发并行文件系统来追赶市场需求。
Q3:VDURA V5000系统有什么技术优势?
A:VDURA V5000采用软件定义存储架构,每节点提供超过60 GBps吞吐量,每机架超过2 TBps带宽和高达1亿IOPS。它支持混合介质分层、元数据加速、GPU Direct技术,并提供多级纠删码技术实现12个9的耐久性,确保AI工作负载不受存储性能限制。
好文章,需要你的鼓励
在2025年KubeCon/CloudNativeCon北美大会上,云原生开发社区正努力超越AI炒作,理性应对人工智能带来的风险与机遇。随着开发者和运营人员广泛使用AI工具构建AI驱动的应用功能,平台工程迎来复兴。CNCF推出Kubernetes AI认证合规程序,为AI工作负载在Kubernetes上的部署设定开放标准。会议展示了网络基础设施层优化、AI辅助开发安全性提升以及AI SRE改善可观测性工作流等创新成果。
意大利ISTI研究院推出Patch-ioner零样本图像描述框架,突破传统局限实现任意区域精确描述。系统将图像拆分为小块,通过智能组合生成从单块到整图的统一描述,无需区域标注数据。创新引入轨迹描述任务,用户可用鼠标画线获得对应区域描述。在四大评测任务中全面超越现有方法,为人机交互开辟新模式。
DeepL作为欧洲AI领域的代表企业,正将业务拓展至翻译之外,推出面向企业的AI代理DeepL Agent。CEO库蒂洛夫斯基认为,虽然在日常翻译场景面临更多竞争,但在关键业务级别的企业翻译需求中,DeepL凭借高精度、质量控制和合规性仍具优势。他对欧盟AI法案表示担忧,认为过度监管可能阻碍创新,使欧洲在全球AI竞争中落后。
MIT研究团队发现,AI系统无需严格配对的多模态数据也能显著提升性能。他们开发的UML框架通过参数共享让AI从图像、文本、音频等不同类型数据中学习,即使这些数据间没有直接对应关系。实验显示这种方法在图像分类、音频识别等任务上都超越了单模态系统,并能自发发展出跨模态理解能力,为未来AI应用开辟了新路径。