英伟达力推"每Token成本"作为AI数据中心核心评估指标

英伟达在博客中提出,随着生成式AI推理负载的增长,传统的每美元FLOPS等计算指标已无法反映AI系统的商业价值。公司主张以"每Token成本"作为衡量数据中心总拥有成本的新标准,并通过Blackwell与Hopper架构的对比数据加以支撑。分析师指出,该指标在超大规模场景下具备参考价值,但对企业IT而言仍过于片面,未来评估体系将融合成本与性能多维指标。

随着生成式 AI 工作负载重塑数据中心的经济模式,英伟达认为,传统基础设施评估指标——包括每美元浮点运算次数(FLOPS)和原始算力成本——已无法准确反映 AI 系统带来的商业价值。

英伟达在一篇博客文章中表示,数据中心正从单纯的数据处理系统演变为其所描述的"AI Token 工厂",其核心产出是推理过程中所生成的 Token。

英伟达指出,这一转变要求运营商相应调整衡量总拥有成本的方式。

从算力指标到产出经济学

英伟达对三种常见指标进行了区分:

算力成本:用户为基础设施支付的费用。

每美元 FLOPS:理论算力效率。

每 Token 成本:生成可用 AI 输出的总成本。

英伟达认为,前两者属于投入侧指标,而每 Token 成本才真正反映实际商业成果。

该公司在文章中表示:"在业务运营以产出为核心的前提下,却对投入指标进行优化,这在根本上存在错位。"

这一论断与行业整体向推理密集型工作负载转型的趋势相契合——在这一背景下,性能评估越来越多地以大规模运行时的吞吐量、延迟和效率为标准,而非峰值算力。

分母问题的关键所在

英伟达论点的核心在于一个简单的等式:每 Token 成本不仅取决于基础设施投入,还取决于系统能够生成多少 Token。

英伟达表示,许多企业将注意力集中在缩减分子——即每 GPU 小时的成本——却低估了最大化 Token 产出的重要性。

英伟达认为,Token 产出能力由整个技术栈中多个因素共同决定,包括:

面向大规模模型的互联性能;

对 FP4 等低精度格式的支持;

推测解码等推理优化技术;

KV 缓存管理等服务层效率优化;

训练与推理的系统级利用率。

这意味着,硬件定价本身并不决定经济效率,系统级优化才是关键。

Blackwell 对比 Hopper:英伟达的实证论据

为支撑其论点,英伟达援引了内部分析数据,以 DeepSeek-R1 模型为基准,对 Hopper 架构平台与更新的 Blackwell 架构系统进行了对比。

根据英伟达的数据,尽管 Blackwell 系统的每小时算力成本约为 Hopper 的两倍,但其吞吐量显著更高:

每 GPU 每秒 Token 生成量最高可达 65 倍;

每兆瓦 Token 生成量约提升 50 倍;

每百万 Token 成本约降低 35 倍。

上述数据来源于英伟达内部分析及第三方机构 SemiAnalysis 的基准测试。

这一对比印证了英伟达论点的核心:较高的前期成本,并不必然意味着更高的运营成本——关键在于与产出相对照来衡量。

厂商叙事背后的深层意涵

Moor Insights & Strategy 副总裁兼首席分析师马特·金博尔(Matt Kimball)表示,对于英伟达力推每 Token 成本经济学的做法,应保持一定的审慎态度。

"每当一家厂商提出一套衡量成功的指标体系,都会引发合理的质疑,"金博尔说,"就本案例而言,Token 经济学——即每 Token 成本——显然对英伟达有利,因为英伟达掌控着从芯片到软件的整个系统。因此,通过推广这一成功定义,其背后的商业逻辑是清晰的。"

金博尔表示,这一指标体现了英伟达作为全栈供应商的优势,使其能够在硬件和软件层面同步提升性能。

每Token成本经济学对数据中心运营商的影响

对于运营商和企业采购方而言,向每 Token 成本经济学的转型引入了一种更为复杂的评估模型。

基础设施决策不再局限于硬件价格或峰值性能的简单比较,而是越来越多地取决于以下因素:

实际工作负载效率;

软件栈的成熟度;

功率约束下的吞吐量(每兆瓦 Token 数);

维持高利用率的能力。

金博尔表示,该指标在超大规模场景下具有一定的合理性——在这类环境中,运营商运行着高度优化、配置统一的系统。

"在规模化场景下,这不失为一个有效的指标,"他说,"当一家厂商能够掌控推理性能的每一个环节——从加速器到输入输出与互联、再到数据管道和软件栈——就更容易沿着这一方向持续优化。"

但他同时指出,将每 Token 成本视为企业 IT 的核心衡量标准,目前为时过早。

"我认为,现在就接受这一指标作为企业 IT 的成功衡量标准,还远远太早,"金博尔说,"我们至少还需要几年时间,才能真正理解这一问题。"

他补充道,每 Token 成本预设了一定程度的性能稳定性,而这在超大规模环境之外未必能够保证。

"如果你告诉我作为一名 CIO,我的每 Token 成本是市场最优的,但我的用户和客户因为响应太慢或结果不准确而不愿使用这个产品或服务,那么每 Token 成本就毫无意义,"他说。

金博尔认为,企业采购方最终将采用综合成本与性能的更全面评估模型。

"未来几个季度,我们将看到一套兼顾成本与性能的、更为标准化的企业 IT 成功衡量体系逐步成形,"他说,"每 Token 成本将成为多项参考指标之一。"

他还指出,网络、软件和数据管道等系统级制约因素,是实际部署中的重要瓶颈。

"这是一个需要全面应对的综合性挑战,"金博尔说,并指出英伟达的全栈策略正是致力于在规模化层面解决这些瓶颈问题。

指标的现实定位

英伟达的论点折射出 AI 基础设施领域更深层的转型趋势:从衡量算力容量,转向衡量所交付的智能能力。

每 Token 成本能否成为行业主导指标,目前仍有待观察。但这场讨论已清晰揭示出一道日益加深的鸿沟——在超大规模环境中,基于产出的指标或许已具备适用性;而在企业级部署场景中,性能、可用性与稳定性仍是衡量实际价值的核心维度。

Q&A

Q1:英伟达提出的"每Token成本"指标和传统算力指标有什么区别?

A:传统指标如每美元FLOPS和算力成本属于投入侧指标,衡量的是基础设施的理论效率。而每Token成本是产出侧指标,反映的是生成实际可用AI输出的总成本。英伟达认为,企业业务运行依赖的是产出,因此用投入指标来优化决策存在根本性错位,每Token成本才能真正体现商业价值。

Q2:英伟达Blackwell架构比Hopper架构在每Token成本上有多大优势?

A:根据英伟达内部分析及第三方机构SemiAnalysis的基准测试,以DeepSeek-R1模型为基准,Blackwell架构系统虽然每小时算力成本约为Hopper的两倍,但每GPU每秒Token生成量最高可达Hopper的65倍,每兆瓦Token生成量约提升50倍,每百万Token成本约降低35倍,综合来看具有显著的经济优势。

Q3:每Token成本适合作为企业IT的核心评估标准吗?

A:目前还不适合。分析师Matt Kimball指出,每Token成本在超大规模环境下具有一定合理性,但对企业IT而言时机尚早。该指标预设了较高的性能稳定性,在复杂的企业部署环境中未必成立。如果系统响应慢或结果不准确,再低的每Token成本也没有实际意义。预计未来将形成兼顾成本与性能的综合评估体系,每Token成本只是其中一项参考指标。

来源:DataCenterKnowledge

0赞

好文章,需要你的鼓励

2026

04/17

09:46

分享

点赞

邮件订阅