机器学习的突破性发展已经颠覆了既有的数据中心架构,这主要由于训练AI模型对计算需求的不断增长。为了应对这一挑战,MLPerf训练基准测试应运而生,作为评估机器学习性能的标准化框架,它帮助数据中心专业人员做出与快速发展的工作负载需求相匹配的明智基础设施决策。
MLPerf在AI运维中的作用
MLPerf是"机器学习性能"的简称,它包含一套评估工具,专门针对当前AI运维所必需的硬件和软件组件。生成式AI模型,特别是大语言模型,对资源有着极高的要求,在需要高性能计算能力的同时消耗大量电力。这些需求持续重塑着全球数据中心基础设施,Gartner预测2025年生成式AI市场将实现149.8%的显著增长,超过140亿美元。
然而,生成式AI的快速采用也带来了需要IT管理层立即关注的组织风险。最近由SAP委托进行的一项研究《经济学人影响调查:2025年C级高管采购调查》突出了这一担忧。根据该研究,42%的受访者将AI相关风险(包括与大语言模型集成相关的风险)列为短期关注点(12至18个月),而49%将其归类为中期优先事项(3至5年)。
认识到这些复杂性,研究人员、供应商和行业领导者合作建立了机器学习系统的标准化性能指标。这项基础工作始于2010年代末——远早于ChatGPT-3引起全球关注——当时数据中心运营商就已经在为AI的变革性影响做准备。
基准测试的诞生:应对AI不断增长的需求
MLPerf训练基准于2018年正式启动,旨在提供"公平有用的比较以加速机器学习进步",这是著名计算机架构师和RISC芯片先驱David Patterson的描述。该基准解决了训练AI模型的挑战,这个过程涉及将大量数据集输入神经网络,使其能够通过"深度学习"进行模式识别。训练完成后,这些模型转入推理模式,对用户查询生成响应。
MLPerf的演进
2018年快速发展的机器学习环境强调了需要一个能够适应新兴技术的灵活基准测试的必要性。这一要求与围绕Transformer模型日益增长的热情相吻合,Transformer在语言和图像处理方面取得了重大突破。Patterson强调MLPerf将采用迭代方法来匹配机器学习创新的加速步伐——这一愿景通过原始的MLPerf训练套件得以实现。
自成立以来,MLCommons.org持续开发和完善MLPerf基准测试,以确保其相关性和准确性。该组织由超过125个成员和附属机构组成,包括Meta、Google、Nvidia、Intel、AMD、Microsoft、VMWare、Fujitsu、Dell和Hewlett Packard Enterprise等行业巨头,在推进性能评估标准方面发挥了重要作用。
MLCommons于2020年发布了1.0版本。后续版本扩展了基准测试的范围,纳入了大语言模型微调和稳定扩散等功能。该组织的最新里程碑MLPerf训练5.0于2025年中期首次亮相。
确保AI系统间的公平比较
MLPerf负责人兼MLCommons董事会成员David Kanter为《数据中心知识》概述了该标准的开发理念。从一开始,目标就是在不同系统间实现公平比较。"这意味着,"Kanter解释说,"一个公平的竞技场,能够容纳许多不同的架构。"他将该基准描述为"使行业保持一致的手段"。
当代AI模型大大加剧了这一挑战。这些系统使用数十亿个神经网络参数处理庞大的数据集,这需要非凡的计算能力。Kanter强调了这些要求的重要性。"训练,特别是一个超级计算问题,"他说。"实际上,这是高性能计算。"
Kanter补充说,训练涵盖存储、网络和许多其他领域。"性能涉及许多不同的要素,我们希望全部捕获。"
MLPerf训练采用综合评估方法,通过结构化、可重复的任务评估性能,这些任务映射到现实世界的应用。使用精选数据集以确保一致性,该基准在参考框架下训练和测试模型,同时根据预定义的质量目标衡量性能。
关键指标:训练时间
"训练时间"作为MLPerf训练的主要指标,评估模型达到质量阈值的速度。这种方法不是专注于原始计算能力,而是提供对复杂的端到端训练过程的客观评估。
"我们选择的质量目标接近最先进水平,"Kanter说。"我们不希望它如此先进以至于无法达到,但我们希望它非常接近可能性的前沿。"
MLPerf训练方法
使用MLPerf套件的开发人员在准备好的测试环境中执行工作负载之前配置库和实用程序。虽然MLPerf通常在容器(如Docker)内运行以确保在不同系统间的可重现条件,但容器化不是强制要求。某些基准测试可能采用虚拟环境或直接硬件软件安装进行原生性能评估。
基准测试过程包括以下关键组件:
配置文件指定被测系统并定义工作负载参数。
参考代码和提交脚本作为测试工具来管理工作负载执行、测量性能并确保符合基准规则。
MLPerf_logging生成详细的执行日志,跟踪过程并记录指标。如上所述,最终指标是训练时间,它测量训练模型达到目标质量评级所需的时间。
提交类别
MLPerf训练支持两个提交类别:
封闭部门支持不同系统间的同类比较。
开放部门允许重大修改,包括替代模型、优化器或训练方案,前提是结果满足目标质量指标。
变化中的竞技场:AI基础设施转型
AI基础设施经历持续转型,MLPerf基准测试套件与此同步发展,以指导设计并解决软件和数据中心团队面临的复杂挑战。2024年推出的第4版包括了训练期间的系统级功耗和能耗测量,突出了AI系统能效的关键重要性。
MLPerf训练5.0(2025年)用基于Llama 3.1 405B生成式AI系统的新LLM预训练评估替换了GPT-3基准测试。
微处理器推动AI革命,MLCommons为MLPerf训练5.0提交提供了丰富的处理器选择。此次迭代中测试的著名芯片包括:
AMD Instinct MI300X(192GB HBM3)。
AMD Instinct MI325X(256GB HBM3e)。
AMD Epyc处理器("Turin")。
Google Cloud TPU-Trillium。
Intel Xeon 6处理器("Granite Rapids")。
NVIDIA Blackwell GPU(GB200)(包括Neoverse V2)。
NVIDIA Blackwell GPU(B200-SXM-180GB)。
MLCommons工作人员在第5版期间观察到被测系统的性能提升。稳定扩散基准显示与仅六个月前发布的4.1版相比,速度提高了2.28倍。这些进步反映了对协同设计日益增长的重视,这是一种优化特定工作负载硬件和软件平衡的方法,从而提高最终用户性能和效率。
AI基准测试的未来:专注于推理
随着领域的发展,AI基准测试必须保持敏捷性以跟上持续的技术突破。虽然最初的努力针对大型模型,但行业已经转向更小的系统,现在这代表了一个主要关注领域。Omida高级计算首席分析师Alexander Harrowell观察到这种转变,解释说虽然"对模型训练总会有兴趣",但重点已从构建更大系统转向优化紧凑、高效的替代方案。
机器学习的推理阶段构成了MLCommons的另一个关键前沿。该组织已开发专门的基准测试来满足各种环境的推理需求:
MLPerf推理:数据中心
MLPerf推理:边缘
MLPerf推理:移动
MLPerf推理:微型
Moor Insights & Strategy数据中心计算和存储副总裁兼首席分析师Matt Kimball强调了推理在AI发展中的重要性。"在'下一步是什么'方面,一切都关于推理,"他说。"推理很有趣,因为边缘推理的性能和功耗需求与数据中心的不同。"他指出,推理要求在不同的边缘环境中差异很大,比如零售与工业应用。
Kimball还认识到推理贡献者生态系统的扩展。"MLCommons在使所有这些参与者能够贡献方面做得很好,然后以允许我作为架构师的方式提供结果,"他说。
Q&A
Q1:MLPerf基准测试是什么?有什么作用?
A:MLPerf是"机器学习性能"的简称,是一套评估AI系统硬件和软件性能的标准化框架。它帮助数据中心专业人员做出与AI工作负载需求相匹配的明智基础设施决策,为不同系统提供公平的性能比较。
Q2:MLPerf基准测试如何衡量AI系统性能?
A:MLPerf使用"训练时间"作为主要指标,评估模型达到预设质量阈值的速度。它通过结构化、可重复的任务进行评估,使用精选数据集训练模型,并根据预定义的质量目标衡量性能。
Q3:MLPerf基准测试最新版本有哪些改进?
A:MLPerf训练5.0用基于Llama 3.1 405B的新LLM预训练评估替换了GPT-3基准测试,并支持测试AMD、Intel、Google、NVIDIA等厂商的最新芯片。稳定扩散基准相比上一版本速度提高了2.28倍。
好文章,需要你的鼓励
为了确保生成内容的专业度,夸克算法团队已经与通义实验室成立了联合研发小组,专注于搜索推理与可信生成。
这项由伊利诺伊大学厦巴纳-香槟分校和滑铁卢大学联合完成的研究,开发了名为VideoScore2的AI视频评估系统,能够像人类专家一样从视觉质量、文本对齐和物理一致性三个维度对AI生成视频进行详细评估,并提供透明的分析过程。该系统在多项测试中显著超越现有评估工具,在准确率上提升近6个百分点,为AI视频行业提供了标准化、可解释的质量评估解决方案,有望推动整个领域的技术进步。
OpenAI于周二发布AI浏览器ChatGPT Atlas,目标是让ChatGPT成为搜索和问答的首选界面而非谷歌。该浏览器目前仅支持Mac,但正在开发Windows、iOS和Android版本。Atlas将ChatGPT设为默认搜索选项,并具备记忆功能,可结合浏览历史提供个性化答案。与其他AI浏览器不同,Atlas更专注于强化ChatGPT生态系统,为OpenAI提供更多用户数据和分发控制权,而非改善传统浏览体验。
滑铁卢大学研究团队提出批评强化学习新方法,让AI模型在学习编程的同时学会批评代码质量。CRITIQUE-CODER模型采用8:2混合训练,不仅保持编程能力还获得代码评价能力。实验显示,该方法让小参数模型超越大模型,4B参数版本在LiveCodeBench达59分,超越基础模型4.8分。更重要的是,批评能力可迁移到逻辑推理等其他领域,为AI训练范式转变指明新方向。