MLPerf存储基准测试第二版显示,测试系统服务的加速器数量比2023年v1.0基准测试轮次大约增加了一倍。
MLCommons表示,本轮基准测试参与度显著提升,提交组织的地理代表性更强,提交测试的系统多样性更大。该基准测试评估存储系统在Unet3D、Cosmoflow和Resnet50 AI训练任务上的性能表现,以及在Llama 3训练运行中的检查点性能。
MLPerf存储工作组联合主席、Hammerspace现场首席技术官Curtis Anderson表示:"在大型AI模型训练的计算规模下,常规组件故障就是生活中的事实。检查点现在已成为这些系统中缓解故障的标准做法,我们很自豪能够提供存储系统的关键基准数据,帮助利益相关者优化其训练性能。"
随着AI训练集群GPU数量的增加,GPU故障概率也在上升,这需要训练运行暂停并从上次检查点重新启动,此时中间结果会被写入存储。MLCommons表示,如果加速器的平均故障时间为50,000小时,那么一个拥有100,000个加速器的集群在满负荷长时间运行时,可能每半小时就会遇到一次故障。拥有一百万个加速器的集群预计每三分钟就会出现一次故障。检查点写入和读取速度越快,失败任务重启越快,整体任务运行时间就越短。
MLPerf存储v2.0包含来自26个提交组织的200多项性能结果:Alluxio、阿贡国家实验室、DDN、ExponTech、FarmGPU、H3C、Hammerspace、HPE、JNIST/华为、Juicedata、金士顿、Kioxia、Lightbits Labs、MangoBoost、美光、Nutanix、甲骨文、广达电脑、三星、闪迪、Simplyblock、TTA、UBIX、IBM、西部数据和燕荣。
制造磁盘驱动器的西部数据还提供其OpenFlex Data24 2RU EBOF(以太网闪存盒),测试了该产品的24驱动器和48驱动器版本,配备KIOXIA CM7-V系列NVMe SSD,并与高性能存储软件提供商PEAK:AIO合作。
MLCommons的MLPerf负责人David Kanter说:"这种参与水平对基准测试来说是游戏规则的改变者。它使我们能够公开发布关于现实世界系统更准确、更具代表性的数据。这反过来为前线的利益相关者提供了成功完成工作所需的信息和工具。检查点基准测试结果就是一个很好的例子:现在我们可以测量检查点性能,就可以考虑优化它。"
与v1.0相比,v2.0提交包含了更多样化的技术方法来为AI训练提供高性能存储,包括:
- 6个本地存储解决方案
- 2个使用存储内加速器的解决方案
- 13个软件定义解决方案
- 12个块系统
- 16个本地共享存储解决方案
- 2个对象存储
MLPerf存储工作组联合主席、麦吉尔大学助理教授Oana Balmau说:"一切都在扩大规模:模型、参数、训练数据集、集群和加速器。看到存储系统提供商不断创新以支持更大规模的系统并不令人意外。"
DDN发布声明表示其结果显示,该公司"通过其AI400X3存储设备创造了新的行业基准",该设备"提供了破纪录的吞吐量和无与伦比的性能密度,从紧凑、节能的2RU系统饱和数百个Nvidia H100 GPU。"这是性能密度,而不是总加速器(GPU)数量和GiB/秒吞吐量等绝对数字。
DDN表示,在单节点基准测试中,DDN AI400X3实现了:
在Cosmoflow和Resnet50训练中实现最高性能密度,仅用2RU 2400W设备就为52个和208个模拟H100 GPU提供服务
IO性能达到30.6 GBps读取和15.3 GBps写入,Llama3-8b检查点的加载和保存时间分别仅为3.4秒和5.7秒
在多节点基准测试中,它实现了:
Unet3D H100训练的120.68 GBps持续读取吞吐量和45个模拟加速器。在v1基准测试中为99.02 GBps和36个加速器
在ResNet50上支持多达640个模拟H100 GPU
在Cosmoflow上支持多达135个模拟H100 GPU,新的AI400X3比去年的结果提升了2倍。
DDN声称,自2016年以来,Nvidia一直完全依赖DDN为其内部AI集群提供动力。
西部数据表示,在Unet3D工作负载中,其OpenFlex Data24实现了106.5 GBps(99.2 GiB/s)的持续读取吞吐量,在三个物理客户端节点上饱和36个模拟H100 GPU。借助PEAK:AIO AI数据服务器,OpenFlex Data24能够提供64.9 GBps(59.6 GiB/s),从单个头服务器和单个客户端节点饱和22个模拟H100 GPU。西部数据平台业务副总裁兼总经理Kurt Chan说:"OpenFlex Data24 4000系列NVMe-oF存储平台在要求苛刻的AI基准测试中提供接近饱和的性能,无论是独立运行还是与单个PEAK:AIO AI数据服务器设备配合使用,都能实现更快的结果时间和减少基础设施扩张。"
完整的MLPerf存储v2.0基准测试结果可在此处获得。
MLPerf邀请利益相关者加入MLPerf存储工作组,帮助其继续发展基准测试套件。对存储系统和检查点问题的更深入理解,以及检查点基准测试的设计,可以在MLPerf存储工作组成员Wes Vaske的文章中找到。
Q&A
Q1:MLPerf存储基准测试v2.0有什么新变化?
A:MLPerf存储基准测试v2.0显示测试系统服务的加速器数量比2023年v1.0版本大约增加了一倍,参与度显著提升,包含来自26个组织的200多项性能结果,地理代表性更强,系统多样性更大。
Q2:为什么检查点性能对AI训练这么重要?
A:随着AI训练集群GPU数量增加,故障概率上升。比如100,000个加速器的集群可能每半小时故障一次,一百万个加速器的集群每三分钟就可能故障一次。检查点写入和读取速度越快,失败任务重启越快,整体训练时间就越短。
Q3:DDN AI400X3在基准测试中表现如何?
A:DDN AI400X3在单节点测试中,仅用2RU设备就为208个模拟H100 GPU提供服务,IO性能达到30.6 GBps读取。在多节点测试中,实现120.68 GBps持续读取吞吐量,比v1版本的99.02 GBps有显著提升。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。