AI智能体的使用费用将极其复杂且难以预测

据密歇根大学联合斯坦福、MIT等机构发布的首项系统性研究，AI智能体（Agent）消耗的Token数量可达普通ChatGPT对话的3500倍，且同一模型在处理相同任务时，费用最高可相差一倍。更棘手的是，智能体本身无法准确预估Token消耗，且更多Token投入并不保证更好结果。研究显示，输入Token是成本主要来源，而现有AI供应商的定价体系对上述不确定性几乎没有体现，企业用户亟需向OpenAI等厂商争取更高的成本透明度与任务完成保障。

在实施智能体人工智能的众多挑战中，成本问题最容易被忽视。OpenAI、谷歌、Anthropic等AI服务提供商均公布了官方定价，但这些价格并不能告诉用户解决一个实际问题最终需要花费多少钱。

密歇根大学与多家机构联合开展的一项最新研究显示，这可能会给用户带来巨大的价格冲击——智能体的费用不仅高昂，而且难以预测。

该研究由密歇根大学的白龙举主导，斯坦福大学、All Hands AI、谷歌DeepMind部门、微软及麻省理工学院的学者共同参与，论文题为《AI智能体如何花费你的钱？分析与预测智能体编程任务中的Token消耗》。作者们将其定位为"首个针对AI智能体Token消耗的系统性研究"，目前已发布于arXiv预印本平台。

值得关注的是，斯坦福大学著名经济学家埃里克·布林约尔松也是该研究的作者之一，他长期致力于研究AI对生产力的影响。

研究最核心的发现是：与逐轮对话式的简单提示词交互相比，智能体消耗的Token数量要多出数个数量级——大约是与ChatGPT进行一轮对话所用Token数量的3500倍。

Token是AI模型处理信息的基本单位，可以是一个词的一部分、一个完整的词，也可以是一个标点符号，具体取决于模型如何对数据进行切分。

智能体的Token消耗更高或许在预期之内，但研究揭示了更令人警惕的问题：针对同一任务，两个不同模型的Token消耗可能差异悬殊；而同一个模型每次处理相同问题时，Token消耗量也可能大相径庭，最多可相差一倍。

更糟糕的是，这一切根本无法预测。研究团队发现，智能体无法可靠地估算自身完成某项任务最终需要消耗多少Token。

研究团队指出："智能体任务的成本极为高昂，"但更多的Token并不一定能带来更好的结果。"单纯扩大Token用量，不一定能提升执行效果，"他们写道，"AI模型普遍会低估自身所需的Token数量。"

费用的持续上涨与成功率的不确定性，在当前OpenAI等服务商的定价表中完全得不到体现。研究表明，这一问题并无简单的解决方案。用户目前能做的，最多是为智能体设置硬性的使用上限，但这可能导致智能体在完成任务前就被迫停止运行。

（披露：ZDNET的母公司Ziff Davis已于2025年4月对OpenAI提起诉讼，指控其在训练和运营AI系统的过程中侵犯了Ziff Davis的版权。）

从宏观角度来看，用户群体需要向OpenAI等服务商施压，要求提供某种形式的可靠费用估算机制，并对任务完成情况提供保障。本文已就此联系OpenAI、谷歌和Anthropic请求置评。

在研究方法上，团队采用了由伊利诺伊大学厄巴纳-香槟分校学者开发的开源智能体AI框架OpenHands来构建智能体，并在开源编程基准测试SWE-Bench上进行测试，测试任务均来自真实的GitHub问题。

在模型表现方面，研究发现各模型各有优劣：OpenAI的ChatGPT 5和5.2"以较低成本实现了较强的准确率"，但并非最准确；Anthropic的Claude Sonnet-4.5准确率最高，但Token消耗也更多；谷歌的Gemini-3-Pro表现居中；而来自中国AI实验室月之暗面的Kimi-K2模型表现最差——消耗Token最多，但准确率最低。

研究团队认为，这种差异源于模型架构的固有特性："这种差距并非由任务难度驱动，也不是因为某些模型在尝试更难的问题。同样的任务对某些模型来说就是更贵，这反映的是模型本身的行为倾向，而非问题本身的属性。"

然而问题不在于模型好坏，因为即便是同一个模型，每次处理相同问题所消耗的Token量也可能相差一倍。研究团队观察到："最贵的一次运行，其Token和金钱成本是最便宜一次的两倍，说明即便面对完全相同的问题，智能体的Token消耗也存在极大的波动性。"

研究同时发现，智能体花在任务上的时间越长，结果反而可能越差。"准确率通常在中等成本时达到峰值，在更高成本时趋于饱和，"研究团队观察到，"智能体在处理更复杂任务时，行为变得越来越不稳定。"

许多模型似乎会在无法解决问题时持续尝试。"模型缺乏可靠的机制来识别任务何时无法完成并提前停止，"研究团队写道，"它们会持续探索、反复尝试、重新读取上下文，不断积累成本却毫无进展。"

在Token预测实验中，研究团队向各AI智能体发出提示，要求其估算完成特定任务所需的Token数量。结果发现，智能体只能在一定程度上近似估算Token消耗，但预测值普遍偏低。"模型会系统性地低估自身所需的Token数量，"团队写道，"这种偏差在输入Token上尤为突出，即便实际值已增长至数百万，预测值仍然偏低。"

研究还有一项值得关注的发现：输入Token是成本的主要来源，包括用户输入的内容，以及通过数据库搜索等工具检索到的内容。相比之下，输出Token（即模型生成的内容）和缓存Token（保存在内存中的历史阶段内容）所占的成本比重要小得多。

"令人惊讶的是，在智能体编程任务中，主导成本的是输入Token，而非输出Token。"

原因在于，"智能体工作流会不断积累来自不同来源的信息，相同的上下文会被反复输入模型"，导致智能体AI的"输入/输出比远高于"单次或多次提示的普通对话模式。进一步深入分析后，成本最高的输入Token因素是智能体从记忆中检索历史信息的操作。"我们发现，缓存读取在原始Token量和实际费用方面均占主导地位，"研究团队写道。

关于解决方案，研究团队提出，即便智能体无法精确预测Token数量，也可以提供粗略的成本估算，用于"在昂贵任务启动前触发预算预警，在不过度承诺精确Token预测的前提下提升成本透明度"。

从用户控制的角度来看，由于输入Token是最大的成本来源，用户应谨慎控制提示词的长度、智能体所使用的上下文窗口大小，以及智能体调用工具（如数据库）的数量——这些因素都会显著影响输入Token的数量。

然而用户能做的终究有限，更多的改变需要在行业层面推动。目前，智能体任务的成本透明度极低，对于需要规划软件投资的企业而言远远不够。即便在智能体大量消耗Token之后，仍无法保证任务能够成功完成——这才是最突出的问题。这意味着企业可能会白白浪费大量资金。

用户群体必须向OpenAI、谷歌和Anthropic等服务商施压，要求提供价格透明度，以及某种形式的任务完成保障。否则，整个智能体AI领域将面临成本失控与实施失败的困境。

这些深层问题在早期采用者中很可能已经出现。他们或许愿意为占据先发优势而支付高额代价，但这种状态显然无法支撑智能体AI的稳定、持续发展。

Q&A

Q1：AI智能体的Token消耗为什么远高于普通对话？

A：根据密歇根大学的研究，智能体在执行任务时会不断积累来自不同来源的信息，并将相同的上下文反复输入模型，导致输入Token大量堆积。研究显示，智能体消耗的Token数量约为普通ChatGPT对话的3500倍，且输入Token是成本的主要来源，而非模型生成的输出Token。

Q2：不同AI模型在智能体任务中的Token消耗差异有多大？

A：差异非常显著。研究发现，OpenAI的ChatGPT 5和5.2以较低成本实现较高准确率；Anthropic的Claude Sonnet-4.5准确率最高但Token消耗更多；谷歌Gemini-3-Pro居中；月之暗面的Kimi-K2则表现最差，Token消耗最多而准确率最低。即便是同一模型，每次运行相同任务的Token消耗量也可能相差一倍。

Q3：企业和用户该如何控制AI智能体的使用成本？

A：目前可行的措施有限。用户可以控制提示词长度、缩小上下文窗口范围、减少智能体调用的工具数量，以降低输入Token消耗；也可以为智能体设置硬性Token上限，防止无限制运行。研究团队建议，服务商应提供粗略的成本预估功能，以便在任务启动前触发预算预警。但从根本上看，还需要用户集体向OpenAI、谷歌、Anthropic等服务商施压，要求提升定价透明度和任务完成保障。

来源：ZDNET

0赞

好文章，需要你的鼓励

AI智能体的使用费用将极其复杂且难以预测

来源：ZDNET

2026

05/08

10:08

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

英国AI人脸识别技术在警务中的应用与风险

谷歌推出智能体数据云，驱动"行动系统"新时代

电力驱动AI数据中心热潮，网络连接同样不可忽视

AI模型自我复制能力首次被研究记录，安全专家如何看待？

下一代电池管理：阻抗数据与主动均衡技术解析

仿人机器人触觉与语音技术正加速突破

Geekplus携手Mindugar加速拉丁美洲仓储自动化布局

Comau与Aptiv携手合作，共同开发AI驱动的工业自动化系统

Anthropic与OpenAI携手华尔街巨头，强势布局企业级AI市场

Ouster发布Rev8彩色激光雷达，有望取代传统摄像头

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会