AI智能体的使用费用将极其复杂且难以预测

据密歇根大学联合斯坦福、MIT等机构发布的首项系统性研究,AI智能体(Agent)消耗的Token数量可达普通ChatGPT对话的3500倍,且同一模型在处理相同任务时,费用最高可相差一倍。更棘手的是,智能体本身无法准确预估Token消耗,且更多Token投入并不保证更好结果。研究显示,输入Token是成本主要来源,而现有AI供应商的定价体系对上述不确定性几乎没有体现,企业用户亟需向OpenAI等厂商争取更高的成本透明度与任务完成保障。

在实施智能体人工智能的众多挑战中,成本问题最容易被忽视。OpenAI、谷歌、Anthropic等AI服务提供商均公布了官方定价,但这些价格并不能告诉用户解决一个实际问题最终需要花费多少钱。

密歇根大学与多家机构联合开展的一项最新研究显示,这可能会给用户带来巨大的价格冲击——智能体的费用不仅高昂,而且难以预测。

该研究由密歇根大学的白龙举主导,斯坦福大学、All Hands AI、谷歌DeepMind部门、微软及麻省理工学院的学者共同参与,论文题为《AI智能体如何花费你的钱?分析与预测智能体编程任务中的Token消耗》。作者们将其定位为"首个针对AI智能体Token消耗的系统性研究",目前已发布于arXiv预印本平台。

值得关注的是,斯坦福大学著名经济学家埃里克·布林约尔松也是该研究的作者之一,他长期致力于研究AI对生产力的影响。

研究最核心的发现是:与逐轮对话式的简单提示词交互相比,智能体消耗的Token数量要多出数个数量级——大约是与ChatGPT进行一轮对话所用Token数量的3500倍。

Token是AI模型处理信息的基本单位,可以是一个词的一部分、一个完整的词,也可以是一个标点符号,具体取决于模型如何对数据进行切分。

智能体的Token消耗更高或许在预期之内,但研究揭示了更令人警惕的问题:针对同一任务,两个不同模型的Token消耗可能差异悬殊;而同一个模型每次处理相同问题时,Token消耗量也可能大相径庭,最多可相差一倍。

更糟糕的是,这一切根本无法预测。研究团队发现,智能体无法可靠地估算自身完成某项任务最终需要消耗多少Token。

研究团队指出:"智能体任务的成本极为高昂,"但更多的Token并不一定能带来更好的结果。"单纯扩大Token用量,不一定能提升执行效果,"他们写道,"AI模型普遍会低估自身所需的Token数量。"

费用的持续上涨与成功率的不确定性,在当前OpenAI等服务商的定价表中完全得不到体现。研究表明,这一问题并无简单的解决方案。用户目前能做的,最多是为智能体设置硬性的使用上限,但这可能导致智能体在完成任务前就被迫停止运行。

(披露:ZDNET的母公司Ziff Davis已于2025年4月对OpenAI提起诉讼,指控其在训练和运营AI系统的过程中侵犯了Ziff Davis的版权。)

从宏观角度来看,用户群体需要向OpenAI等服务商施压,要求提供某种形式的可靠费用估算机制,并对任务完成情况提供保障。本文已就此联系OpenAI、谷歌和Anthropic请求置评。

在研究方法上,团队采用了由伊利诺伊大学厄巴纳-香槟分校学者开发的开源智能体AI框架OpenHands来构建智能体,并在开源编程基准测试SWE-Bench上进行测试,测试任务均来自真实的GitHub问题。

在模型表现方面,研究发现各模型各有优劣:OpenAI的ChatGPT 5和5.2"以较低成本实现了较强的准确率",但并非最准确;Anthropic的Claude Sonnet-4.5准确率最高,但Token消耗也更多;谷歌的Gemini-3-Pro表现居中;而来自中国AI实验室月之暗面的Kimi-K2模型表现最差——消耗Token最多,但准确率最低。

研究团队认为,这种差异源于模型架构的固有特性:"这种差距并非由任务难度驱动,也不是因为某些模型在尝试更难的问题。同样的任务对某些模型来说就是更贵,这反映的是模型本身的行为倾向,而非问题本身的属性。"

然而问题不在于模型好坏,因为即便是同一个模型,每次处理相同问题所消耗的Token量也可能相差一倍。研究团队观察到:"最贵的一次运行,其Token和金钱成本是最便宜一次的两倍,说明即便面对完全相同的问题,智能体的Token消耗也存在极大的波动性。"

研究同时发现,智能体花在任务上的时间越长,结果反而可能越差。"准确率通常在中等成本时达到峰值,在更高成本时趋于饱和,"研究团队观察到,"智能体在处理更复杂任务时,行为变得越来越不稳定。"

许多模型似乎会在无法解决问题时持续尝试。"模型缺乏可靠的机制来识别任务何时无法完成并提前停止,"研究团队写道,"它们会持续探索、反复尝试、重新读取上下文,不断积累成本却毫无进展。"

在Token预测实验中,研究团队向各AI智能体发出提示,要求其估算完成特定任务所需的Token数量。结果发现,智能体只能在一定程度上近似估算Token消耗,但预测值普遍偏低。"模型会系统性地低估自身所需的Token数量,"团队写道,"这种偏差在输入Token上尤为突出,即便实际值已增长至数百万,预测值仍然偏低。"

研究还有一项值得关注的发现:输入Token是成本的主要来源,包括用户输入的内容,以及通过数据库搜索等工具检索到的内容。相比之下,输出Token(即模型生成的内容)和缓存Token(保存在内存中的历史阶段内容)所占的成本比重要小得多。

"令人惊讶的是,在智能体编程任务中,主导成本的是输入Token,而非输出Token。"

原因在于,"智能体工作流会不断积累来自不同来源的信息,相同的上下文会被反复输入模型",导致智能体AI的"输入/输出比远高于"单次或多次提示的普通对话模式。进一步深入分析后,成本最高的输入Token因素是智能体从记忆中检索历史信息的操作。"我们发现,缓存读取在原始Token量和实际费用方面均占主导地位,"研究团队写道。

关于解决方案,研究团队提出,即便智能体无法精确预测Token数量,也可以提供粗略的成本估算,用于"在昂贵任务启动前触发预算预警,在不过度承诺精确Token预测的前提下提升成本透明度"。

从用户控制的角度来看,由于输入Token是最大的成本来源,用户应谨慎控制提示词的长度、智能体所使用的上下文窗口大小,以及智能体调用工具(如数据库)的数量——这些因素都会显著影响输入Token的数量。

然而用户能做的终究有限,更多的改变需要在行业层面推动。目前,智能体任务的成本透明度极低,对于需要规划软件投资的企业而言远远不够。即便在智能体大量消耗Token之后,仍无法保证任务能够成功完成——这才是最突出的问题。这意味着企业可能会白白浪费大量资金。

用户群体必须向OpenAI、谷歌和Anthropic等服务商施压,要求提供价格透明度,以及某种形式的任务完成保障。否则,整个智能体AI领域将面临成本失控与实施失败的困境。

这些深层问题在早期采用者中很可能已经出现。他们或许愿意为占据先发优势而支付高额代价,但这种状态显然无法支撑智能体AI的稳定、持续发展。

Q&A

Q1:AI智能体的Token消耗为什么远高于普通对话?

A:根据密歇根大学的研究,智能体在执行任务时会不断积累来自不同来源的信息,并将相同的上下文反复输入模型,导致输入Token大量堆积。研究显示,智能体消耗的Token数量约为普通ChatGPT对话的3500倍,且输入Token是成本的主要来源,而非模型生成的输出Token。

Q2:不同AI模型在智能体任务中的Token消耗差异有多大?

A:差异非常显著。研究发现,OpenAI的ChatGPT 5和5.2以较低成本实现较高准确率;Anthropic的Claude Sonnet-4.5准确率最高但Token消耗更多;谷歌Gemini-3-Pro居中;月之暗面的Kimi-K2则表现最差,Token消耗最多而准确率最低。即便是同一模型,每次运行相同任务的Token消耗量也可能相差一倍。

Q3:企业和用户该如何控制AI智能体的使用成本?

A:目前可行的措施有限。用户可以控制提示词长度、缩小上下文窗口范围、减少智能体调用的工具数量,以降低输入Token消耗;也可以为智能体设置硬性Token上限,防止无限制运行。研究团队建议,服务商应提供粗略的成本预估功能,以便在任务启动前触发预算预警。但从根本上看,还需要用户集体向OpenAI、谷歌、Anthropic等服务商施压,要求提升定价透明度和任务完成保障。

来源:ZDNET

0赞

好文章,需要你的鼓励

2026

05/08

10:08

分享

点赞

邮件订阅