企业如何应对生成式AI的Token成本危机

随着生成式AI工具的普及，Token消耗成本急剧攀升。Token是衡量AI使用量的基本单位，谷歌每月处理约3200万亿个Token。企业正从多个层面寻求降本之道：使用更低价的轻量模型（如Gemini Flash）、构建缓存中间层减少直接调用、优化提示词效率、部署本地AI硬件等。Gartner分析师指出，随着企业意识到Token的真实成本，AI计费模式或将逐步从按Token计费转向基于业务结果的定价模型。

随着生成式AI工具和服务的普及，使用成本正急剧攀升，各企业对Token的需求也随之呈现出近乎无限的增长态势。

Token是衡量和计算AI使用量的基本单位。类似于英语中的字母和单词，大语言模型通过将词语拆解为Token来理解句子或查询请求。

随着AI热潮持续升温，Token已成为"我们模型处理数据的基本单元，很多Token代表着一个正在被解决的问题"，谷歌CEO桑达尔·皮查伊如此表示。目前谷歌每月处理的Token数量约为3.2千万亿个。

然而，随着Token使用费用不断累积，企业和IT管理者正积极寻找在保持生产效率的同时压缩成本的方法。失控的Token消耗已经让一家公司收到了高达5亿美元的意外AI账单。

从模型选择、基础设施优化、芯片层面到业务策略，企业有多种途径可以控制AI成本。以下是一些实际可行的节省方案。

选用更低成本的模型

皮查伊提到，一种潜在的省钱方式是将AI任务转移到更低成本的模型上处理。在谷歌，这个选择是Gemini 3.5 Flash，其能力达到前沿水平，价格却不到同类前沿模型的一半。

"如果企业混合使用Gemini 3.5 Flash和其他前沿模型，可以节省大量资金，"皮查伊表示。

这类模型提供更低廉的Token价格，其推理能力虽不及主流Gemini 3.5，但对许多用户而言已足够使用。

"有时候大语言模型确实存在过度使用的情况，"Gartner高级总监分析师迪帕克·赛斯表示，"我并不总是需要一个曾用查尔斯·狄更斯、莎士比亚和哈利·波特作品训练过的大语言模型。"

Hyperframe Research首席分析师史蒂文·迪肯斯表示，他每月花费20美元使用亚马逊的某款产品处理个人事务，"这是非常划算的投资，它不仅让任务完成得更快，还帮我完成了很多以前根本不会去尝试的工作。"

缓存与分层：应对Token危机的系统解法

DevRev CEO迪拉杰·潘迪认为，Token成本危机并非新鲜事，当前AI市场的状况与当年云计算和虚拟化技术兴起时引发的行业变革颇为相似。

"我们当时任由混乱蔓延，然后不得不收拾残局，"潘迪说，"那时候人们开始谈论服务器整合和虚拟化。"

他认为Token问题的解法与当年如出一辙："系统中的任何问题都可以通过缓存和间接寻址来解决。"

DevRev正在智能体与Salesforce或ERP等主要数据源之间构建一个记忆层，用于降低Token消耗并提升数据流转效率。该层存储了智能体常见问题的知识图谱，并在成本较低的CPU上运行，从而避免占用更昂贵的GPU资源。

潘迪表示，将智能体直接对接ServiceNow、Salesforce等系统"会消耗更多Token，精度也不高，而且一旦智能体出现操作失误，安全性也难以保障，回滚也更麻烦。"

网络自动化公司NetBrain则采用了另一种方式：先用传统计算方式对网络拓扑进行梳理，再将关键信息输入模型进行规划和推理。"这样就不需要消耗大量Token，"NetBrain首席技术官庞松说。

提示词优化：用更少Token做更多事

人力资源服务公司万宝盛华发现，提升提示词效率是改善Token使用效果的有效手段，在内部应用和客户服务中均有所体现。

该公司内部劳动力市场分析工具上线初期，用户需要平均10次追问才能深入查询一个问题；一年后，通过优化提示词，这一数字已降至平均4次。

"他们使用的Token更少，效率却更高，"万宝盛华数据科学与AI解决方案负责人马克斯·利明说，"这在很大程度上取决于提示词的效率。"

本地化AI硬件：让Token"免费"运行

新型AI硬件或许能为这场成本危机提供新的出路——让Token在本地免费生成。

本月初，英伟达和微软在GTC台北活动上发布了RTX Spark，这是一款可在Windows系统上本地运行智能体及1200亿参数模型的智能体AI桌面PC。微软CEO萨蒂亚·纳德拉表示，目标是"为每个家庭和每张办公桌提供无限量的智能服务"。

与此同时，一些企业正考虑将自有硬件部署到数据中心，借助HPE、戴尔等厂商提供的服务器降低云端AI成本。

"本地化、区域化以及多供应商AI解决方案都能帮助降低风险，但无法完全消除风险，"Gartner高级总监分析师麦克斯·高斯说。

前沿部署工程师：控本增效的关键角色

AWS生成式AI创新中心董事总经理泰穆尔·拉希德表示，控制Token成本的工作在一定程度上将落到在客户环境中驻场工作的前沿部署工程师身上。

"我希望这些团队在设计系统时就将成本要求纳入考量，无论是选用不同的模型，还是选择不会推高每Token成本的应用场景，"拉希德说。

他也指出，企业或许在Token消耗上投入不菲，"但只要能创造收入，只要经济账算得过来，就没什么问题。"

随着IT决策者在推进AI部署的同时愈加注重成本控制，前沿部署工程师的角色正受到越来越多的重视。

从Token计费走向结果计费

尽管当前各方重点都在减少Token使用以节省成本，但Gartner的赛斯认为，衡量AI成功的指标终将发生转变。在某个时间节点，基于Token的定价模式将逐步向结果导向型模式迁移，价值的基本单位将不再是词语碎片，而是实际产出的成果。

"一些公司正在向结果导向型定价转型，"赛斯说，"当人们真正意识到Token的实际成本时，企业就会开始关注Token效率。"

Q&A

Q1：Token在AI使用中具体指什么？为什么会产生高额费用？

A：Token是大语言模型处理文字的基本单位，类似于英语中的字母或词语片段。大语言模型通过将词语拆解为Token来理解输入内容。由于生成式AI被大规模普及使用，Token消耗量急剧增加，而平台通常按Token数量进行计费，这导致企业的AI使用成本直线上升，甚至有企业因此收到高达5亿美元的意外账单。

Q2：企业可以采用哪些方法降低AI的Token成本？

A：目前主要有几种方式：一是改用更低成本的轻量模型，如谷歌的Gemini 3.5 Flash；二是在智能体与数据源之间建立缓存记忆层，减少重复Token消耗；三是优化提示词，减少多余的追问次数；四是部署本地AI硬件，避免按量计费的云端消耗；五是引入前沿部署工程师，从架构层面设计低成本AI系统。

Q3：Token计费模式未来会发生变化吗？

A：Gartner分析师认为，随着企业对Token实际成本的认知加深，行业会逐步从按Token计费转向按结果计费的模式。也就是说，未来AI服务的定价依据将是实际产出的业务成果，而非处理了多少Token碎片。目前已有部分公司开始朝这个方向转型。

来源：Computerworld

0赞

好文章，需要你的鼓励

企业如何应对生成式AI的Token成本危机

来源：Computerworld

2026

06/23

07:52

分享

点赞

“驯服”千亿模型，鏖战“黑猴打瓦”，龙虾“一键接管” ，锐龙AI Max+ 395开启全能桌面AI主机“王炸”时刻

豪声电子泰国电声工厂初步投产：2500万泰铢项目进入产能爬坡

地瓜机器人将560TOPS端侧算力，加载到了20+头部团队机器人中

WAIC 2026主论坛（下午场）重磅揭晓！

AI评测初创公司Braintrust遭入侵，敦促所有客户轮换API密钥

牙科诊所软件漏洞修复：患者医疗记录曾遭泄露

关键基础设施巨头Itron确认遭遇网络攻击

Vercel数据泄露范围扩大，黑客早于已知时间节点已入侵

苹果与博通签署300亿美元协议，共同生产美国本土无线芯片

摩托罗拉领投BRINC 1.25亿美元，推动紧急救援无人机大规模扩张

AI赋能芯片设计：前景广阔，疑问犹存

Arm今夏将推出自研芯片，Meta成首批客户

戴尔发布基于英伟达Vera Rubin GPU的AI服务器

AI智能体循环：从单次对话到持续运转的下一跳

Intrinsic发布新一代模块化AI工业机器人装配系统

如何提示 Copilot 或 ChatGPT 精准排查电脑故障并避免 AI 过度自信

加拿大机器人公司联合创始人：多数行业自动化程度不足

iOS 27 全面升级：地图、钱包、音乐等多项功能详解

三家中小银行的AI实践经验

Insilico与SK生物制药达成25亿美元AI神经免疫领域合作

Genpact研究发现企业内部潜藏18万亿美元AI价值

专访Paul Dawalibi：拉斯海马能否成为中东的硅谷？

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: