MLPerf存储基准测试第二版显示,测试系统服务的加速器数量比2023年v1.0基准测试轮次大约增加了一倍。
MLCommons表示,本轮基准测试参与度显著提升,提交组织的地理代表性更强,提交测试的系统多样性更大。该基准测试评估存储系统在Unet3D、Cosmoflow和Resnet50 AI训练任务上的性能表现,以及在Llama 3训练运行中的检查点性能。
MLPerf存储工作组联合主席、Hammerspace现场首席技术官Curtis Anderson表示:"在大型AI模型训练的计算规模下,常规组件故障就是生活中的事实。检查点现在已成为这些系统中缓解故障的标准做法,我们很自豪能够提供存储系统的关键基准数据,帮助利益相关者优化其训练性能。"
随着AI训练集群GPU数量的增加,GPU故障概率也在上升,这需要训练运行暂停并从上次检查点重新启动,此时中间结果会被写入存储。MLCommons表示,如果加速器的平均故障时间为50,000小时,那么一个拥有100,000个加速器的集群在满负荷长时间运行时,可能每半小时就会遇到一次故障。拥有一百万个加速器的集群预计每三分钟就会出现一次故障。检查点写入和读取速度越快,失败任务重启越快,整体任务运行时间就越短。
MLPerf存储v2.0包含来自26个提交组织的200多项性能结果:Alluxio、阿贡国家实验室、DDN、ExponTech、FarmGPU、H3C、Hammerspace、HPE、JNIST/华为、Juicedata、金士顿、Kioxia、Lightbits Labs、MangoBoost、美光、Nutanix、甲骨文、广达电脑、三星、闪迪、Simplyblock、TTA、UBIX、IBM、西部数据和燕荣。
制造磁盘驱动器的西部数据还提供其OpenFlex Data24 2RU EBOF(以太网闪存盒),测试了该产品的24驱动器和48驱动器版本,配备KIOXIA CM7-V系列NVMe SSD,并与高性能存储软件提供商PEAK:AIO合作。
MLCommons的MLPerf负责人David Kanter说:"这种参与水平对基准测试来说是游戏规则的改变者。它使我们能够公开发布关于现实世界系统更准确、更具代表性的数据。这反过来为前线的利益相关者提供了成功完成工作所需的信息和工具。检查点基准测试结果就是一个很好的例子:现在我们可以测量检查点性能,就可以考虑优化它。"
与v1.0相比,v2.0提交包含了更多样化的技术方法来为AI训练提供高性能存储,包括:
- 6个本地存储解决方案
- 2个使用存储内加速器的解决方案
- 13个软件定义解决方案
- 12个块系统
- 16个本地共享存储解决方案
- 2个对象存储
MLPerf存储工作组联合主席、麦吉尔大学助理教授Oana Balmau说:"一切都在扩大规模:模型、参数、训练数据集、集群和加速器。看到存储系统提供商不断创新以支持更大规模的系统并不令人意外。"
DDN发布声明表示其结果显示,该公司"通过其AI400X3存储设备创造了新的行业基准",该设备"提供了破纪录的吞吐量和无与伦比的性能密度,从紧凑、节能的2RU系统饱和数百个Nvidia H100 GPU。"这是性能密度,而不是总加速器(GPU)数量和GiB/秒吞吐量等绝对数字。
DDN表示,在单节点基准测试中,DDN AI400X3实现了:
在Cosmoflow和Resnet50训练中实现最高性能密度,仅用2RU 2400W设备就为52个和208个模拟H100 GPU提供服务
IO性能达到30.6 GBps读取和15.3 GBps写入,Llama3-8b检查点的加载和保存时间分别仅为3.4秒和5.7秒
在多节点基准测试中,它实现了:
Unet3D H100训练的120.68 GBps持续读取吞吐量和45个模拟加速器。在v1基准测试中为99.02 GBps和36个加速器
在ResNet50上支持多达640个模拟H100 GPU
在Cosmoflow上支持多达135个模拟H100 GPU,新的AI400X3比去年的结果提升了2倍。
DDN声称,自2016年以来,Nvidia一直完全依赖DDN为其内部AI集群提供动力。
西部数据表示,在Unet3D工作负载中,其OpenFlex Data24实现了106.5 GBps(99.2 GiB/s)的持续读取吞吐量,在三个物理客户端节点上饱和36个模拟H100 GPU。借助PEAK:AIO AI数据服务器,OpenFlex Data24能够提供64.9 GBps(59.6 GiB/s),从单个头服务器和单个客户端节点饱和22个模拟H100 GPU。西部数据平台业务副总裁兼总经理Kurt Chan说:"OpenFlex Data24 4000系列NVMe-oF存储平台在要求苛刻的AI基准测试中提供接近饱和的性能,无论是独立运行还是与单个PEAK:AIO AI数据服务器设备配合使用,都能实现更快的结果时间和减少基础设施扩张。"
完整的MLPerf存储v2.0基准测试结果可在此处获得。
MLPerf邀请利益相关者加入MLPerf存储工作组,帮助其继续发展基准测试套件。对存储系统和检查点问题的更深入理解,以及检查点基准测试的设计,可以在MLPerf存储工作组成员Wes Vaske的文章中找到。
Q&A
Q1:MLPerf存储基准测试v2.0有什么新变化?
A:MLPerf存储基准测试v2.0显示测试系统服务的加速器数量比2023年v1.0版本大约增加了一倍,参与度显著提升,包含来自26个组织的200多项性能结果,地理代表性更强,系统多样性更大。
Q2:为什么检查点性能对AI训练这么重要?
A:随着AI训练集群GPU数量增加,故障概率上升。比如100,000个加速器的集群可能每半小时故障一次,一百万个加速器的集群每三分钟就可能故障一次。检查点写入和读取速度越快,失败任务重启越快,整体训练时间就越短。
Q3:DDN AI400X3在基准测试中表现如何?
A:DDN AI400X3在单节点测试中,仅用2RU设备就为208个模拟H100 GPU提供服务,IO性能达到30.6 GBps读取。在多节点测试中,实现120.68 GBps持续读取吞吐量,比v1版本的99.02 GBps有显著提升。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。