现代AI的一个显著特点是,让经济学领域之外的新一代人群(但确实在推动现代经济发展)接触到了展示帕累托前沿的曲线图。
在2025年GTC大会上,英伟达联合创始人兼首席执行官黄仁勋用这些帕累托前沿曲线来描述AI推理吞吐量和响应时间性能之间的权衡。维尔弗雷多·帕累托是意大利数学家、土木工程师和经济学家,他在第一个镀金时代创造了80-20法则,观察到意大利80%的财富集中在20%的人口手中。
帕累托曲线最初用于绘制工业革命中的质量控制改进,帕累托前沿是一种特殊的曲线,能够平衡多个目标并显示在变量改变时它们之间的各种权衡。当你让一个变量变差时,另一个会变好,在帕累托前沿曲线的中间某处,可能就是大多数情况下两者之间的正确平衡点。
黄仁勋在2025年3月GTC开幕主题演讲中展示了一条帕累托前沿曲线,显示了通过调整某个未命名大语言模型中GPU数量和并行类型可获得的吞吐量和响应时间优化点。
左下角的Hopper曲线显示了在使用H200 GPU运行FP8精度的八路GPU节点上,有无Dynamo和TensorRT推理堆栈的性能分布,这显然向外推移了曲线。Blackwell曲线显示了一个更大的共享内存GPU集群,配备72个B200以及降至FP4精度。精度减半使吞吐量翻倍,而拥有机架级系统而非节点在此基础上又提升了9倍。加上Dynamo和TensorRT优化,在H200和B200曲线的最佳点,Blackwell系统在给定并行级别下每兆瓦提供约5倍更多Token,每用户约5倍更多Token,实现25倍的性能提升倍增效应。
这使用的是密集、模糊的单体模型,在为每个查询生成每个Token时完全激活。可以看到,GB200 NVL72相比相对较小的H200 NVL8系统,标准化每兆瓦的吞吐量在每兆瓦约950万Token/秒达到峰值,但每用户吞吐量相对较低,而H200系统约为每兆瓦230万Token/秒。
但看看当转向推理模型时每兆瓦吞吐量如何下降:
这条曲线背后的模型可能是任何数量的所谓思维链模型,它们在就答案达成共识并提供给你之前,会在串联的不同模型间进行大量Token生成和消耗。它可能是GPT,也可能是DeepSeek。英伟达没有说明。
可以看到,转向推理模型后每兆瓦吞吐量下降了11倍——这是我们3月份查看这些曲线时没有注意到的——但根据所使用的专家、张量、数据和模型并行层,每用户吞吐量大致相同。B200系统最佳点相比H200系统的性能优势是40倍(每用户约6.5倍更多Token,每兆瓦每秒约6.5倍更多Token)。
当英伟达描述使用其"Hopper"H200和"Blackwell"B200 GPU系统在SemiAnalysis新InferenceMax v1基准测试套件的三个不同AI模型上的硬件和软件性能时,我们获得了另一组帕累托前沿曲线。这让我们不仅思考英伟达系统的性能,还思考在AI领域,模型变化如此之快,软件不断调整和调优以更好地利用硬件,在很短时间内,吞吐量和性能的帕累托前沿像冲击波一样向外推移。
InferenceMax基准测试使用GPT-OSS 120B、DeepSeek R1-0528和Llama 3.3 70B Instruct模型;前两个是推理模型,后一个是密集、模糊的模型。InferenceMax让你可以查看每XPU的吞吐量——目前只有英伟达和AMD GPU的少数配置,但希望不同类型的XPU会跟进——以及测试集群规模的吞吐量,以及购买、在自有新云中托管和从云租用每百万Token的成本。
经验法则:2倍然后5倍
自2012年左右机器学习革命认真起步以来,英伟达一直在硬件和软件方面努力工作。总的来说,特定类型数学单元(如32位矢量核心或16位张量核心)的每GPU性能提升在1.5倍到3倍之间,平均约2倍。然后,一旦硬件推出并在现场使用两年后,性能通过软件再提升约5倍,在下一代硬件出现时实现10倍跳跃,然后又有约2倍的硬件提升,循环重新开始。
这个故事与其说是关于帕累托前沿曲线,不如说是在衡量帕累托前沿曲线的变化速度。英伟达向我们展示了从InferenceMax基准测试提交开始的过去几个月测试,然后在接下来几周内——不是几个月——进行的优化,推动了帕累托冲击波向外扩展。
我们想到另外两个帕累托法则。第一,英伟达80%的收入来自硬件,但只有20%来自软件。第二,20%的英伟达员工从事硬件工作,而80%从事软件工作。这就是软件最终推动英伟达任何一代GPU系统60%性能提升的原因。
以下是一个漂亮的图表,显示了GB200 NVL72机架级系统的GPT-OSS推理模型帕累托前沿曲线,Y轴为每GPU吞吐量,X轴为交互性(每用户每秒Token数):
从8月初到9月底InferenceMax v1测试结果提交时,整个帕累托前沿的性能几乎翻倍。
然后在10月3日,当英伟达在TensorRT推理堆栈中进行了一些增强,以及在机架级系统中跨NVSwitch内存互连并行化数据访问的新方法时,帕累托前沿曲线不仅向外推移,而且曲线的两端向Y轴和X轴延伸,将少数用户的最大吞吐量提升到每GPU超过60,000 Token/秒(TPS),并将最大用户交互性提升到每GPU近500 TPS,为少数用户提供高水平交互性。
然后不到一周后的10月9日,英伟达在软件堆栈中添加了多Token预测,这是AI模型的一种推测执行,改变了帕累托前沿曲线的形状,使英伟达能够在最大交互性下推动每用户1,000 TPS,并在约每用户100 TPS的速率下提供5倍吞吐量,这一速率被设定为8月原始GPT-OSS基准测试运行的峰值吞吐量。
英伟达过去需要约两年时间在软件方面实现的——在相同硬件上提供5倍性能改进——现在在几周内就完成了。
对此我们在与英伟达讨论时开玩笑说:"那你们为什么不一开始就这样做呢?"这引起了最初的震惊和笑声。
答案当然是,硬件变化很快,软件变化更快。生成式AI是IT行业中真正需要保持软件最新的部分之一。这样做价值数十亿美元的性能提升。
Q&A
Q1:什么是帕累托前沿曲线?它在AI领域有什么作用?
A:帕累托前沿曲线是一种特殊的曲线,能够平衡多个目标并显示在变量改变时它们之间的各种权衡。在AI领域,它被用来描述AI推理吞吐量和响应时间性能之间的权衡关系,帮助找到两者之间的最佳平衡点。
Q2:英伟达的GPU性能提升主要靠硬件还是软件?
A:根据文章分析,硬件升级通常带来约2倍性能提升,而软件优化在硬件推出两年后能带来约5倍性能提升。英伟达80%员工从事软件工作,软件最终推动了60%的性能提升,因此软件优化的贡献更大。
Q3:InferenceMax基准测试是什么?它测试哪些模型?
A:InferenceMax是SemiAnalysis推出的新基准测试套件,用于测试AI推理性能。它使用GPT-OSS 120B、DeepSeek R1-0528和Llama 3.3 70B Instruct三个模型,前两个是推理模型,后一个是密集模型,可以查看不同配置下的吞吐量和成本表现。
好文章,需要你的鼓励
YouTube开始推出肖像检测工具,帮助创作者识别和举报使用其面部特征的AI生成视频。该系统类似于版权检测机制,目前处于测试阶段,仅向部分创作者开放。用户需要提供政府身份证件照片和面部视频来验证身份。系统会标记疑似包含用户肖像的视频,但无法保证100%准确识别AI内容。YouTube将根据多项因素决定是否移除举报的视频。
华中科技大学研究团队发现,通过让AI模型学习解决几何问题,能够显著提升其空间理解能力。他们构建了包含约30000个几何题目的Euclid30K数据集,使用强化学习方法训练多个AI模型。实验结果显示,几何训练在四个空间智能测试基准上都带来显著提升,其中最佳模型达到49.6%准确率,超越此前最好成绩。这项研究揭示了基础几何知识对培养AI空间智能的重要价值。
谷歌宣布在AI Studio平台中引入"氛围编程"体验,让编程和非编程用户都能更轻松地开发应用程序。用户可通过简单提示生成可运行的应用,新功能包括应用画廊、模型选择器、安全变量存储等。平台还添加了模块化"超能力"功能和"手气不错"按钮来激发创意。完成的原型应用可一键部署到谷歌云运行平台。此次更新正值业界期待谷歌即将发布Gemini 3.0大语言模型。
中国人民大学研究团队开发了Tool-Light框架,通过信息熵理论解决AI工具使用中的过度调用、调用不足和过度思考问题。该框架采用熵引导采样和两阶段自演化训练,让AI学会合理使用外部工具。在10个推理任务测试中,Tool-Light显著提升了AI的效率和准确性,为AI工具集成推理提供了新的解决方案。