AI领域出现了一个对抗Token过度消耗的新武器。
所谓"Token滥用"(Tokenmaxxing),是指企业将AI的Token使用量等同于生产力的一种误区。然而,Token使用量很容易沦为一个虚荣指标,将Token消耗直接视为生产力衡量标准的企业,往往难以将Token用量与实际业务成果挂钩。
这一风潮曾风靡一时,但随着关注点从"为用AI而用AI"转向实际成果,理性的声音正逐渐占据主导。近期Uber遭遇的Token滥用事件便是典型案例:
Uber首席技术官Neppalli Naga上月向《The Information》透露,他"已经回到起点,因为原以为足够的预算早已烧光"。该预算原本是为Uber使用Anthropic Claude Code而划拨的。
数周后,Uber首席运营官Andrew Macdonald在接受Rapid Response采访时作出回应(Business Insider率先报道),称Naga关于Claude预算超支的言论让运营团队产生了"脑子要炸"的感觉。
"所有人都说,'哦,脑子要炸了,'"Macdonald表示,"我们必须开始讨论Token消耗及其相关成本与人员编制的对比,并作为工程组织在这方面做出权衡。"
"如果你无法直接说清楚究竟为用户交付了多少有用的功能,这种权衡就很难得到认可。"
Lanai联合创始人兼首席执行官Lexi Reese强调,这一问题正在各处蔓延,Uber只是最新一家经历此问题的知名企业。
"Token滥用是真实存在的,它代价高昂,并且正在向少数几个工程师或公司之外蔓延,"Reese向The New Stack表示。
Token滥用可能导致代码臃肿、智能体扩张失控,以及软件应用最终变得脆弱甚至出现漏洞等问题,同时还会增加成本、降低对整体系统状态的可见性。
Lanai是一家AI问责公司,致力于帮助企业了解AI支出发生的位置、AI应用于哪些工作流,以及相应的成本。
该公司近期推出了Token Tuner工具,用于识别哪些环节可以用低成本模型来减少不必要的Token开销。这是开发者和管理者用于控制工程师及终端用户Token用量的最新工具。目前互联网上不乏各类"减少Token用量十大技巧",Kong、Braintrust、LiteLLM、Dynatrace等公司和机构也纷纷提供工具,帮助企业管理Token预算。
Reese团队将Token Tuner定位为填补企业上下文缺失空白的服务,通过将Token支出与工作流、模型选择、效率及创造的价值相对应,帮助企业建立清晰的关联。该软件将每次AI交互与可量化的成果挂钩,并根据用户将Token用量和模型选择与具体任务匹配的程度,生成生产力评分。
例如,某员工若使用Opus 4.7来撰写邮件回复,其效率得分很可能低于使用更小模型完成同一任务的情况。
与其盲目追求Token消耗量,Reese更希望企业专注于"成果最大化",即分析哪些工作流真正提升了生产力。
Token Tuner目前处于测试阶段。在使用该工具的一家企业中,某用户仅消耗了全组织0.7%的Token,却承担了4.2%的AI工作量,效率得分达到6.0,显示其能够将任务与合适的模型精准匹配;而其他用户在消耗Token数量高出十倍的情况下,效率却只有前者的一半。
Lanai首席产品官Mohit Mehta向The New Stack介绍,Token Tuner是一款"全地形"工具,其评分引擎能够在单一工作流同时跨越多个模型时计算生产力得分。
"生产力的估算依据是通过Lanai专有模型观测到的提示词和工具活动,来衡量委托给AI的工作复杂度,"Mehta表示,"该模型在提示词和工具调用层面运作,独立于具体模型和应用程序之外。"
随着业界对技术部署的业务成果日益重视(甚至有政界人士也开始使用"可量化成果"这一说法),我们需要思考:API层需要什么样的监测手段,才能让Token Tuner将Token消耗归因到具体的业务成果?
"Lanai会聚合某次会话中的提示词交互及相关工具活动,再运行专有模型来计算任务类型、相关生产力增益和复杂度,"Mehta解释道,"这使客户能够从毫无上下文的供应商账单,进阶到在交互层面打通意图、价值与成本之间的关联。这一功能无需任何定制化的监测配置。"
"我们不依赖合成评估,而是利用观测到的真实结果数据。我们的建议基于组织内真实用户在不同模型间取得同等效果的实际情况。"
在如何推动业务效率方面,业务用户可能会问:当Token Tuner推荐使用低成本模型时,是否有基准来评估输出质量的等效性?
"我们不依赖合成评估,而是利用观测到的真实结果数据,"Mehta表示,"我们的建议基于组织内真实用户在不同模型间取得同等效果的实际情况。我们提供的不是'这个方案应该适合你'这类泛泛建议,而是'贵公司的团队使用Haiku完成了这一具体工作流,且效果相当'这样有实证支撑的依据。这体现的是大规模真实场景下的偏好,而非合成基准测试的结论。"
Token Tuner的核心功能包括:工作流级别的价值可视化(显示哪些团队、工作流和使用场景在驱动AI支出,以及该使用量是否与可量化的业务价值挂钩);生产力与效率衡量(将Token支出与用户、团队和工作流获得的效益进行比较,以显示每花一美元AI价值最大的地方);以及支出优化建议功能(识别失控工作流、任务与模型不匹配,以及将低成本模型可以胜任的工作交给高端模型的情况)。
回顾AI发展历程:起初,我们只是想要AI,传统的预测型AI就已足够;后来,我们希望拥有基于特定领域的RAG智能,进而演进至能在人类监督下为我们工作的智能体AI服务;而如今,我们或许更需要的是"适得其用"的AI——不在不必要的场景下使用,只有在真正能够证明其价值时,才动用高性能服务。
归根结底,AI的下一个杀手级应用远不止于提升业务效率,但这或许将成为其中越来越不可忽视的组成部分。
Q&A
Q1:什么是Token滥用(Tokenmaxxing),为什么企业要避免它?
A:Token滥用是指企业将AI的Token使用量等同于生产力的误区。Token使用量容易成为虚荣指标,无法直接反映真实业务成果。过度使用Token不仅成本高昂,还可能导致代码臃肿、智能体失控扩张,甚至让软件应用变得脆弱或存在漏洞,同时降低对整体系统状态的可见性。Uber的案例就是典型,其AI预算因Claude Code的过度使用而严重超支。
Q2:Lanai的Token Tuner工具具体能解决什么问题?
A:Token Tuner是Lanai推出的AI支出管理工具,主要解决企业Token消耗与实际业务价值脱节的问题。它能将每次AI交互与可量化结果挂钩,生成效率评分,识别哪些工作流可以用低成本模型替代。例如,发现员工用高端模型处理简单邮件时,会给出低效率评分并推荐更合适的模型,帮助企业实现"成果最大化"而非"Token消耗最大化"。
Q3:Token Tuner推荐低成本模型时,如何保证输出质量不下降?
A:Token Tuner不依赖合成基准测试,而是基于组织内真实用户的实际使用数据来作出推荐。它会提供具体的实证依据,例如"贵公司的团队已经用某款低成本模型完成了同类任务,且效果相当"。这种基于真实场景的推荐方式,比传统合成评估更具说服力,能让企业在降低成本的同时,对输出质量保持信心。
好文章,需要你的鼓励
Velotric Tempo是一款以骑行体验为核心的轻量级通勤电动自行车,整车重量仅17.7kg。配备350W后轮毂电机和360Wh电池,续航可达50-65公里。支持踏频与扭矩传感器双模式切换,骑行感受自然流畅。内置Apple Find My及安卓追踪功能,具备UL认证和IPX6/IPX7防水等级。主要不足在于Class 3模式下油门被完全禁用,油门手感欠佳,且售价1499美元略偏高,挡泥板和后货架需另购。
PaW是一种为AI智能体设计的协同训练框架,无需额外模型或数据,仅利用强化学习训练中已有的轨迹数据,让智能体同时学会决策与预测环境变化,在多个任务上取得稳定提升。
一家加拿大家具制造商借助发那科M-710iC工业机器人,成功将传统劳动密集型软垫工序自动化。该系统由发那科授权系统集成商Dvolu开发,集机器视觉、机器人操作与激光裁剪于一体,可完成面料拉伸、钉合、裁剪及码垛等工序,无需人工干预即可适应零件差异。项目旨在解决家具行业劳动力短缺问题,为难以招募和留用工人的岗位提供有效替代方案。
萨尔大学团队提出语义运动锚点方法,通过自动生成同时描述手势外观与交流意图的自然语言说明书,让AI更准确地检索与语言语义匹配的手势,在BEAT2数据集上检索准确率提升8.2%。