在今年的FinOps X 2026大会上,一个核心议题贯穿始终:AI的Token计费模式正在成为整个生成式AI经济体系的基础,而这一模式远比以往的定价方式昂贵得多。几个月前,大多数用户还在享受AI服务的固定月费套餐。如今,这一切已成为历史。
Token:AI时代的"原子单位"
FinOps Foundation执行董事J.R. Storment将Token称为"AI的原子单位"。他在主题演讲中表示,Token在现代经济中扮演的角色,堪比20世纪的石油——它同时是数据中心硬件与算力的产出单位、AI实验室对外定价的依据,也是企业希望从中创造价值的核心要素。
对于各大AI实验室和云服务巨头而言,Token这一抽象单位的优势显而易见:它将GPU类型、内存、电力等复杂的底层成本,统一封装成一个简洁的计量维度——每百万Token的价格。OpenAI、Anthropic、谷歌等主流厂商均已发布各自模型的分项定价,分别对输入Token(发送给模型的内容)和输出Token(模型生成的内容)单独计费。
那么,Token究竟是什么?Storment解释说,Token是大语言模型处理文本时的最小拆分单元。在模型处理文本之前,会先将其切分为若干片段,这一过程称为分词(Tokenization)。以英语为例,通常1个Token约等于4个字符,或约四分之三个单词,即100个Token大约对应75个英文单词。
然而,Token背后隐藏着巨大的复杂性。SAP的FinOps团队指出:"你按Token付费,而这小小的Token之下,隐藏着惊人的复杂度。"从模型选择、量化方式,到缓存策略和智能体的使用程度,每一个环节都会影响最终成本。
"随意用AI"的时代结束了
Storment将AI发展划分为三个阶段:ChatGPT诞生之前的"旧时代"、聊天机器人"能写出像样代码"的"美好旧时代",以及2025年11月之后"AI从相当好跃升至真正卓越"的全新阶段。
在"随便用"的时代,企业和用户都热衷于追求Token用量排行榜,比拼谁用得最多。如今,这种竞赛已成笑谈,因为没有人再能承受浪费Token的代价。亚马逊高级副总裁Dave Treadwell甚至公开呼吁:"请不要为了用AI而用AI。"
去年6月至11月间,全球Token用量呈线性平稳增长。但此后,新一代模型相继发布,智能体模式也随之爆发。上下文窗口从数千、数万Token迅速扩展至单次对话支持数百万Token,智能体带来的循环调用、重试和纠错机制更是让Token消耗量急剧膨胀。
企业起初乐于为这种行为买单——直到账单来了。Storment披露,部分每月缴纳200美元订阅费的重度用户,其实际消耗成本高达每月数万美元。AI分析机构SemiAnalysis估算,200美元的Anthropic套餐曾可使用价值8000美元的Claude Token,而类似的OpenAI套餐则能兑换价值1.4万美元的Codex Token。这样的补贴时代,如今已经终结。
降价趋势正在触底
从表面数据来看,Token价格自2023年以来确实大幅下降。SAP数据科学家Maida Nazifi展示了该公司的内部数据,显示每Token成本整体呈下降趋势。
然而,专家们警告,降价空间正趋于收窄。Storment指出,自2025年11月起,主流AI实验室的Token定价已基本持平,背后原因是硬件和电力的双重瓶颈——GPU供应不足、数据中心产能受限。他引用英特尔CEO的判断称,GPU及相关组件的供应紧张局面预计要到2028年才能得到实质性缓解。
SAP副总裁Frederik Pohl也印证了这一判断:"供应链受限、硬件价格上涨,新一代前沿模型的定价也在持续攀升。"
更棘手的是,这里出现了经典的"杰文斯悖论":单位成本下降,但总支出反而上升。Pohl坦言:"我们的单位成本在下降,但某些月份的总支出却翻了一倍。"高盛预测,全球Token用量将从目前的6千万亿(quadrillion)Token增长至约3.5年后的120千万亿Token。即便届时Token价格进一步下调,降幅也难以追上用量增速。
"Token经济学"重塑企业财务逻辑
对于长期专注于云资源优化的FinOps从业者而言,Token计费模式既熟悉又陌生。熟悉之处在于,它同样是按用量计费、账单金额巨大、预测难度极高;陌生之处则在于,计量单位与语言直接挂钩,而非基础设施,且随模型迭代快速变化,完全不同于服务器折旧周期的缓慢节奏。
Pohl直言:"AI不只是在拓展云计算的方法论边界,而是彻底打破了它。AI与云计算的差异,远大于当年云计算与数据中心的差异。"
SAP的实践经验颇具代表性。其商业AI平台横跨ChatGPT、Anthropic、Gemini及多个开源模型,部署于不同的云服务商之上。当SAP最初试图分析AI成本时,Nazifi回忆道:"我们立刻撞上了一堵墙——现有的云工具对大语言模型的成本细节几乎是盲目的。"
团队随后采用手动方式拉取数据、跨表合并,最终拼出了第一张成本全景图。这份数据一路传递到CTO案头,引发的连锁反应令人印象深刻:"短短几天内,领导的态度就从'哦,这挺有意思,有进展告诉我'变成了'我需要定期看这个数据,而且要更详细'。"
由此,SAP构建起一套内部AI FinOps框架,核心理念与英伟达CEO黄仁勋的"Token工厂效能"高度契合——每一个Token都必须物有所值,从芯片、数据中心租约,到模型路由和提示词设计,全链路都要纳入优化视野。
Token定价正在重塑SaaS商业模式
Storment指出,Token计费正在与软件即服务(SaaS)的商业模式产生激烈碰撞。微软GitHub已将Copilot的计费方式转向更明确的按量付费模式,此前享受"无限Token"的开发者们,如今"对微软颇为不满",因为隐性补贴已悄然消失。
AI实验室本身也在悄悄收紧规则,且这些变化在Token层面往往难以察觉。Storment举例称,Anthropic曾在其Fable模型卡中设置了一条不透明条款:若用户试图基于Claude Fable构建大语言模型,系统会在用户毫不知情的情况下将其切换至其他模型。尽管Anthropic随后撤回了这一政策,但其他公司未必会跟进。这类隐性操作让简单的"每Token成本"指标形同虚设,因为"并非所有Token都是生而平等的"。
当前先进的大语言模型在追踪答案时可能会大量消耗Token,而用户对此往往毫无察觉。Django Web框架联合创始人Simon Willison曾报告,仅凭一张截图和一行提示词,Claude Fable 5与Claude Code组合就自行启动了Web服务器、调用了多种浏览器、搭建并运行了独立服务,执行了大量操作——只为解决一个简单的CSS显示问题。此次的Token消耗费用约为12美元。不难想象,面对更复杂的问题,前沿模型可能会烧掉数百乃至数千美元。
谁将被Token高价拒之门外?
Token定价的高企,正在引发更深层的社会议题。Storment忧虑地指出,若高Token成本持续存在,将形成"能负担得起AI的人与负担不起的人之间的社会鸿沟"。在企业内部,这一分化已初现端倪:部分团队被认定有资格使用最新模型,另一些则被自动路由至更廉价的版本。
然而,也有声音反对简单粗暴地设置用量上限。一位财富100强企业高管建议Storment:"仔细审视用量数据,你会发现一些异常值——别急着限制他们,去和他们聊聊,看看他们在做什么,也许他们正在做一些真正有价值的探索。"
对于个人而言,尤其是刚刚进入职场的新人,Token计费所引发的焦虑与"AI抢饭碗"的担忧相互叠加。Storment的判断既务实又直接:"我不认为AI会立刻夺走所有人的工作,但我认为,更擅长使用AI的人,会去抢那些不用AI的人的工作。"若Token价格和配额持续限制学习和实验的机会,这道鸿沟只会越来越深。
无论对企业还是个人而言,以AI Token为基础的新经济体系正在迅速成形,一个成本远高于以往的AI时代已然到来。这究竟意味着什么,目前尚无定论。但可以确定的是,未来的成本将比现在高出数个数量级。
Q&A
Q1:AI Token定价模式是如何运作的?
A:Token是大语言模型处理文本时的最小单元,以英语为例,100个Token约等于75个单词。OpenAI、Anthropic、谷歌等主流厂商按每百万Token单独对输入和输出计费。这一模式将GPU、内存、电力等底层成本统一封装,让实验室和云服务商无需暴露复杂的基础设施细节,即可灵活定价。
Q2:为什么AI Token的总体支出还在上涨,明明单价已经在下降?
A:这是经典的"杰文斯悖论":单位成本下降,但使用量增长更快,导致总支出反而上升。智能体模式的兴起、上下文窗口从数千扩展至数百万Token,以及循环调用、重试等机制,都在大幅推高Token消耗。高盛预测全球Token用量将在约3.5年内从6千万亿增长至120千万亿,降价幅度远追不上用量增速。
Q3:企业应该如何应对AI Token成本飙升的问题?
A:以SAP为例,企业可建立内部AI FinOps框架,核心理念是"每一个Token都必须物有所值"。具体措施包括:细化模型级别的成本追踪(而非仅看总支出)、优化模型路由策略、合理使用缓存机制、审慎设计提示词,以及评估不同大语言模型在成本与输出质量之间的权衡。同时,不应简单封堵高用量用户,而要先了解其使用场景是否具有真正的业务价值。
好文章,需要你的鼓励
今天讲的出海案例是依米康,这家数据中心温控与液冷设备厂商正在把泰国纳入海外交付体系,并用生产线、总装车间和焓差实验室承接算力设施订单。
BioMatrix是首个将分子序列、分子三维结构、蛋白质序列、蛋白质三维结构和自然语言统一在单一语言模型中的生物基础模型,在80项任务中77项达到最优或第二优。
Salesforce正式推出Help Agent,这是基于Agentforce平台的预封装AI客服智能体,可在数分钟内连接企业知识库、操作功能及网页、短信、语音等沟通渠道。该产品同步推出按解决率计费模式,每次成功自主解决客户问题收费2美元,无需按token或操作次数计费。Help Agent支持低代码构建,内置测试功能,并配备全新客户服务门户。该产品预计于2026年7月正式上线。
浙江大学提出SKILLHARNESS框架,通过为AI电脑助手的每项技能附加安全边界,从成功、失败和风险三类经历中学习,使AI在动态危险环境中安全高效地完成任务。