随着生成式AI工具和服务的普及,使用成本正急剧攀升,各企业对Token的需求也随之呈现出近乎无限的增长态势。
Token是衡量和计算AI使用量的基本单位。类似于英语中的字母和单词,大语言模型通过将词语拆解为Token来理解句子或查询请求。
随着AI热潮持续升温,Token已成为"我们模型处理数据的基本单元,很多Token代表着一个正在被解决的问题",谷歌CEO桑达尔·皮查伊如此表示。目前谷歌每月处理的Token数量约为3.2千万亿个。
然而,随着Token使用费用不断累积,企业和IT管理者正积极寻找在保持生产效率的同时压缩成本的方法。失控的Token消耗已经让一家公司收到了高达5亿美元的意外AI账单。
从模型选择、基础设施优化、芯片层面到业务策略,企业有多种途径可以控制AI成本。以下是一些实际可行的节省方案。
选用更低成本的模型
皮查伊提到,一种潜在的省钱方式是将AI任务转移到更低成本的模型上处理。在谷歌,这个选择是Gemini 3.5 Flash,其能力达到前沿水平,价格却不到同类前沿模型的一半。
"如果企业混合使用Gemini 3.5 Flash和其他前沿模型,可以节省大量资金,"皮查伊表示。
这类模型提供更低廉的Token价格,其推理能力虽不及主流Gemini 3.5,但对许多用户而言已足够使用。
"有时候大语言模型确实存在过度使用的情况,"Gartner高级总监分析师迪帕克·赛斯表示,"我并不总是需要一个曾用查尔斯·狄更斯、莎士比亚和哈利·波特作品训练过的大语言模型。"
Hyperframe Research首席分析师史蒂文·迪肯斯表示,他每月花费20美元使用亚马逊的某款产品处理个人事务,"这是非常划算的投资,它不仅让任务完成得更快,还帮我完成了很多以前根本不会去尝试的工作。"
缓存与分层:应对Token危机的系统解法
DevRev CEO迪拉杰·潘迪认为,Token成本危机并非新鲜事,当前AI市场的状况与当年云计算和虚拟化技术兴起时引发的行业变革颇为相似。
"我们当时任由混乱蔓延,然后不得不收拾残局,"潘迪说,"那时候人们开始谈论服务器整合和虚拟化。"
他认为Token问题的解法与当年如出一辙:"系统中的任何问题都可以通过缓存和间接寻址来解决。"
DevRev正在智能体与Salesforce或ERP等主要数据源之间构建一个记忆层,用于降低Token消耗并提升数据流转效率。该层存储了智能体常见问题的知识图谱,并在成本较低的CPU上运行,从而避免占用更昂贵的GPU资源。
潘迪表示,将智能体直接对接ServiceNow、Salesforce等系统"会消耗更多Token,精度也不高,而且一旦智能体出现操作失误,安全性也难以保障,回滚也更麻烦。"
网络自动化公司NetBrain则采用了另一种方式:先用传统计算方式对网络拓扑进行梳理,再将关键信息输入模型进行规划和推理。"这样就不需要消耗大量Token,"NetBrain首席技术官庞松说。
提示词优化:用更少Token做更多事
人力资源服务公司万宝盛华发现,提升提示词效率是改善Token使用效果的有效手段,在内部应用和客户服务中均有所体现。
该公司内部劳动力市场分析工具上线初期,用户需要平均10次追问才能深入查询一个问题;一年后,通过优化提示词,这一数字已降至平均4次。
"他们使用的Token更少,效率却更高,"万宝盛华数据科学与AI解决方案负责人马克斯·利明说,"这在很大程度上取决于提示词的效率。"
本地化AI硬件:让Token"免费"运行
新型AI硬件或许能为这场成本危机提供新的出路——让Token在本地免费生成。
本月初,英伟达和微软在GTC台北活动上发布了RTX Spark,这是一款可在Windows系统上本地运行智能体及1200亿参数模型的智能体AI桌面PC。微软CEO萨蒂亚·纳德拉表示,目标是"为每个家庭和每张办公桌提供无限量的智能服务"。
与此同时,一些企业正考虑将自有硬件部署到数据中心,借助HPE、戴尔等厂商提供的服务器降低云端AI成本。
"本地化、区域化以及多供应商AI解决方案都能帮助降低风险,但无法完全消除风险,"Gartner高级总监分析师麦克斯·高斯说。
前沿部署工程师:控本增效的关键角色
AWS生成式AI创新中心董事总经理泰穆尔·拉希德表示,控制Token成本的工作在一定程度上将落到在客户环境中驻场工作的前沿部署工程师身上。
"我希望这些团队在设计系统时就将成本要求纳入考量,无论是选用不同的模型,还是选择不会推高每Token成本的应用场景,"拉希德说。
他也指出,企业或许在Token消耗上投入不菲,"但只要能创造收入,只要经济账算得过来,就没什么问题。"
随着IT决策者在推进AI部署的同时愈加注重成本控制,前沿部署工程师的角色正受到越来越多的重视。
从Token计费走向结果计费
尽管当前各方重点都在减少Token使用以节省成本,但Gartner的赛斯认为,衡量AI成功的指标终将发生转变。在某个时间节点,基于Token的定价模式将逐步向结果导向型模式迁移,价值的基本单位将不再是词语碎片,而是实际产出的成果。
"一些公司正在向结果导向型定价转型,"赛斯说,"当人们真正意识到Token的实际成本时,企业就会开始关注Token效率。"
Q&A
Q1:Token在AI使用中具体指什么?为什么会产生高额费用?
A:Token是大语言模型处理文字的基本单位,类似于英语中的字母或词语片段。大语言模型通过将词语拆解为Token来理解输入内容。由于生成式AI被大规模普及使用,Token消耗量急剧增加,而平台通常按Token数量进行计费,这导致企业的AI使用成本直线上升,甚至有企业因此收到高达5亿美元的意外账单。
Q2:企业可以采用哪些方法降低AI的Token成本?
A:目前主要有几种方式:一是改用更低成本的轻量模型,如谷歌的Gemini 3.5 Flash;二是在智能体与数据源之间建立缓存记忆层,减少重复Token消耗;三是优化提示词,减少多余的追问次数;四是部署本地AI硬件,避免按量计费的云端消耗;五是引入前沿部署工程师,从架构层面设计低成本AI系统。
Q3:Token计费模式未来会发生变化吗?
A:Gartner分析师认为,随着企业对Token实际成本的认知加深,行业会逐步从按Token计费转向按结果计费的模式。也就是说,未来AI服务的定价依据将是实际产出的业务成果,而非处理了多少Token碎片。目前已有部分公司开始朝这个方向转型。
好文章,需要你的鼓励
今天讲的出海案例是依米康,这家数据中心温控与液冷设备厂商正在把泰国纳入海外交付体系,并用生产线、总装车间和焓差实验室承接算力设施订单。
BioMatrix是首个将分子序列、分子三维结构、蛋白质序列、蛋白质三维结构和自然语言统一在单一语言模型中的生物基础模型,在80项任务中77项达到最优或第二优。
Salesforce正式推出Help Agent,这是基于Agentforce平台的预封装AI客服智能体,可在数分钟内连接企业知识库、操作功能及网页、短信、语音等沟通渠道。该产品同步推出按解决率计费模式,每次成功自主解决客户问题收费2美元,无需按token或操作次数计费。Help Agent支持低代码构建,内置测试功能,并配备全新客户服务门户。该产品预计于2026年7月正式上线。
浙江大学提出SKILLHARNESS框架,通过为AI电脑助手的每项技能附加安全边界,从成功、失败和风险三类经历中学习,使AI在动态危险环境中安全高效地完成任务。