在实施智能体人工智能的众多挑战中,成本问题最容易被忽视。OpenAI、谷歌、Anthropic等AI服务提供商均公布了官方定价,但这些价格并不能告诉用户解决一个实际问题最终需要花费多少钱。
密歇根大学与多家机构联合开展的一项最新研究显示,这可能会给用户带来巨大的价格冲击——智能体的费用不仅高昂,而且难以预测。
该研究由密歇根大学的白龙举主导,斯坦福大学、All Hands AI、谷歌DeepMind部门、微软及麻省理工学院的学者共同参与,论文题为《AI智能体如何花费你的钱?分析与预测智能体编程任务中的Token消耗》。作者们将其定位为"首个针对AI智能体Token消耗的系统性研究",目前已发布于arXiv预印本平台。
值得关注的是,斯坦福大学著名经济学家埃里克·布林约尔松也是该研究的作者之一,他长期致力于研究AI对生产力的影响。
研究最核心的发现是:与逐轮对话式的简单提示词交互相比,智能体消耗的Token数量要多出数个数量级——大约是与ChatGPT进行一轮对话所用Token数量的3500倍。
Token是AI模型处理信息的基本单位,可以是一个词的一部分、一个完整的词,也可以是一个标点符号,具体取决于模型如何对数据进行切分。
智能体的Token消耗更高或许在预期之内,但研究揭示了更令人警惕的问题:针对同一任务,两个不同模型的Token消耗可能差异悬殊;而同一个模型每次处理相同问题时,Token消耗量也可能大相径庭,最多可相差一倍。
更糟糕的是,这一切根本无法预测。研究团队发现,智能体无法可靠地估算自身完成某项任务最终需要消耗多少Token。
研究团队指出:"智能体任务的成本极为高昂,"但更多的Token并不一定能带来更好的结果。"单纯扩大Token用量,不一定能提升执行效果,"他们写道,"AI模型普遍会低估自身所需的Token数量。"
费用的持续上涨与成功率的不确定性,在当前OpenAI等服务商的定价表中完全得不到体现。研究表明,这一问题并无简单的解决方案。用户目前能做的,最多是为智能体设置硬性的使用上限,但这可能导致智能体在完成任务前就被迫停止运行。
(披露:ZDNET的母公司Ziff Davis已于2025年4月对OpenAI提起诉讼,指控其在训练和运营AI系统的过程中侵犯了Ziff Davis的版权。)
从宏观角度来看,用户群体需要向OpenAI等服务商施压,要求提供某种形式的可靠费用估算机制,并对任务完成情况提供保障。本文已就此联系OpenAI、谷歌和Anthropic请求置评。
在研究方法上,团队采用了由伊利诺伊大学厄巴纳-香槟分校学者开发的开源智能体AI框架OpenHands来构建智能体,并在开源编程基准测试SWE-Bench上进行测试,测试任务均来自真实的GitHub问题。
在模型表现方面,研究发现各模型各有优劣:OpenAI的ChatGPT 5和5.2"以较低成本实现了较强的准确率",但并非最准确;Anthropic的Claude Sonnet-4.5准确率最高,但Token消耗也更多;谷歌的Gemini-3-Pro表现居中;而来自中国AI实验室月之暗面的Kimi-K2模型表现最差——消耗Token最多,但准确率最低。
研究团队认为,这种差异源于模型架构的固有特性:"这种差距并非由任务难度驱动,也不是因为某些模型在尝试更难的问题。同样的任务对某些模型来说就是更贵,这反映的是模型本身的行为倾向,而非问题本身的属性。"
然而问题不在于模型好坏,因为即便是同一个模型,每次处理相同问题所消耗的Token量也可能相差一倍。研究团队观察到:"最贵的一次运行,其Token和金钱成本是最便宜一次的两倍,说明即便面对完全相同的问题,智能体的Token消耗也存在极大的波动性。"
研究同时发现,智能体花在任务上的时间越长,结果反而可能越差。"准确率通常在中等成本时达到峰值,在更高成本时趋于饱和,"研究团队观察到,"智能体在处理更复杂任务时,行为变得越来越不稳定。"
许多模型似乎会在无法解决问题时持续尝试。"模型缺乏可靠的机制来识别任务何时无法完成并提前停止,"研究团队写道,"它们会持续探索、反复尝试、重新读取上下文,不断积累成本却毫无进展。"
在Token预测实验中,研究团队向各AI智能体发出提示,要求其估算完成特定任务所需的Token数量。结果发现,智能体只能在一定程度上近似估算Token消耗,但预测值普遍偏低。"模型会系统性地低估自身所需的Token数量,"团队写道,"这种偏差在输入Token上尤为突出,即便实际值已增长至数百万,预测值仍然偏低。"
研究还有一项值得关注的发现:输入Token是成本的主要来源,包括用户输入的内容,以及通过数据库搜索等工具检索到的内容。相比之下,输出Token(即模型生成的内容)和缓存Token(保存在内存中的历史阶段内容)所占的成本比重要小得多。
"令人惊讶的是,在智能体编程任务中,主导成本的是输入Token,而非输出Token。"
原因在于,"智能体工作流会不断积累来自不同来源的信息,相同的上下文会被反复输入模型",导致智能体AI的"输入/输出比远高于"单次或多次提示的普通对话模式。进一步深入分析后,成本最高的输入Token因素是智能体从记忆中检索历史信息的操作。"我们发现,缓存读取在原始Token量和实际费用方面均占主导地位,"研究团队写道。
关于解决方案,研究团队提出,即便智能体无法精确预测Token数量,也可以提供粗略的成本估算,用于"在昂贵任务启动前触发预算预警,在不过度承诺精确Token预测的前提下提升成本透明度"。
从用户控制的角度来看,由于输入Token是最大的成本来源,用户应谨慎控制提示词的长度、智能体所使用的上下文窗口大小,以及智能体调用工具(如数据库)的数量——这些因素都会显著影响输入Token的数量。
然而用户能做的终究有限,更多的改变需要在行业层面推动。目前,智能体任务的成本透明度极低,对于需要规划软件投资的企业而言远远不够。即便在智能体大量消耗Token之后,仍无法保证任务能够成功完成——这才是最突出的问题。这意味着企业可能会白白浪费大量资金。
用户群体必须向OpenAI、谷歌和Anthropic等服务商施压,要求提供价格透明度,以及某种形式的任务完成保障。否则,整个智能体AI领域将面临成本失控与实施失败的困境。
这些深层问题在早期采用者中很可能已经出现。他们或许愿意为占据先发优势而支付高额代价,但这种状态显然无法支撑智能体AI的稳定、持续发展。
Q&A
Q1:AI智能体的Token消耗为什么远高于普通对话?
A:根据密歇根大学的研究,智能体在执行任务时会不断积累来自不同来源的信息,并将相同的上下文反复输入模型,导致输入Token大量堆积。研究显示,智能体消耗的Token数量约为普通ChatGPT对话的3500倍,且输入Token是成本的主要来源,而非模型生成的输出Token。
Q2:不同AI模型在智能体任务中的Token消耗差异有多大?
A:差异非常显著。研究发现,OpenAI的ChatGPT 5和5.2以较低成本实现较高准确率;Anthropic的Claude Sonnet-4.5准确率最高但Token消耗更多;谷歌Gemini-3-Pro居中;月之暗面的Kimi-K2则表现最差,Token消耗最多而准确率最低。即便是同一模型,每次运行相同任务的Token消耗量也可能相差一倍。
Q3:企业和用户该如何控制AI智能体的使用成本?
A:目前可行的措施有限。用户可以控制提示词长度、缩小上下文窗口范围、减少智能体调用的工具数量,以降低输入Token消耗;也可以为智能体设置硬性Token上限,防止无限制运行。研究团队建议,服务商应提供粗略的成本预估功能,以便在任务启动前触发预算预警。但从根本上看,还需要用户集体向OpenAI、谷歌、Anthropic等服务商施压,要求提升定价透明度和任务完成保障。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。