Anthropic上个月将Claude Code提示缓存的TTL(存活时间)从一小时缩短至五分钟,适用于大多数请求。尽管该公司表示此举不会增加用户成本,但仍有用户反映配额消耗明显加快。
用户Sean Swanson提交了一份错误报告,指出Anthropic曾于2月1日前后为Claude Code上下文引入一小时缓存机制,随后又于3月7日前后将其改回五分钟缓存。Swanson表示:"五分钟的TTL对以长会话、高上下文为典型使用场景的Claude Code用户而言,惩罚力度明显过重。"
在使用AI编程助手或智能体时,上下文是指随用户提示一并发送的附加数据,例如已有代码或背景说明。上下文能够提升AI的响应准确性,但同时也需要更多的处理资源。
Claude的提示缓存机制可避免对已处理过的提示(包括上下文和背景信息)进行重复处理。缓存TTL分为五分钟和一小时两种。写入五分钟缓存的Token消耗比基准价格高出25%,写入一小时缓存则高出100%,但从缓存中读取数据的成本约为基准价格的10%。
Bun JavaScript运行时的创始人、现任职于Anthropic的Jarred Sumner认可Swanson的分析是"很好的探查工作",但表示将缓存改回五分钟实际上降低了Claude Code的使用成本,原因是"Claude Code中有相当一部分请求属于一次性调用,缓存的上下文只被使用一次,不会再被访问"。Sumner还表示,Claude Code客户端会自动确定缓存TTL,目前也无计划提供全局设置选项。
对此,Swanson修订了自己的分析,承认使用子智能体的会话确实能从五分钟缓存较低的写入成本中获益,因为这些子智能体交互频繁,"缓存几乎从不过期"。但他同时指出,自己已连续订阅每月200美元的套餐超过六个月,直到3月份才首次遭遇配额限制。他表示,"额外的消耗速率"正在让"这项曾经优秀的服务变得难以使用"。
另一个影响因素是,付费套餐中Claude Opus 4.6或Sonnet 4.6模型提供的100万Token超长上下文窗口会显著推高成本,尤其是在缓存未命中时。Claude Code的创始人Boris Cherny表示:"在使用100万Token上下文窗口时,提示缓存未命中的代价非常高……如果你离开电脑超过一小时后再继续一个已停滞的会话,往往会触发完全的缓存未命中。"他还透露,Anthropic正在研究将默认上下文窗口调整为40万Token,并为有需要的用户保留100万Token的选项。目前已有相关配置项可供使用。
Cherny指出,上下文规模扩大已成为普遍趋势,原因在于用户"正在引入大量技能,或同时运行多个智能体及后台自动化任务"。
部分开发者认为,缓存重建和缓存未命中是导致Claude Code配额耗尽的主要原因。目前问题已相当严重,Pro用户(每月20美元)在五小时内可能仅能发送两条提示。此外,缓存代码中已发现多处漏洞,有用户直言:"在这些问题修复之前,关于五分钟与一小时缓存的讨论很可能完全没有意义,因为相关数据本身就存在严重偏差。"
对缓存优化的持续关注,也可能从侧面印证了一个现实:Anthropic的配额所能购买到的实际处理时长,已悄然缩水。
Swanson并非唯一反映Claude性能下降的用户。例如,一位企业团队套餐用户表示:"三月份我可以整天使用Opus,效果非常好。但从三月底到四月,我遇到了不到两小时就耗尽会话用量的情况,模型陷入反复思考的循环,多次'意识到'同样的事情,输出了大量'但等等,我其实需要做X'之类的段落,内容只有细微差别。"AMD的一位AI总监也表达了类似看法。
缓存优化固然值得关注,但它似乎不足以解释用户所反映的全部问题。
Q&A
Q1:Claude Code的提示缓存机制是如何工作的?
A:Claude的提示缓存机制可以避免对已处理过的提示(包括上下文和背景信息)进行重复处理,从而节省Token消耗。缓存TTL分为五分钟和一小时两种。写入五分钟缓存的成本比基准价格高25%,写入一小时缓存则高100%,但从缓存中读取的成本仅为基准价格的10%。缓存命中时成本较低,未命中时则需重新处理,成本大幅上升。
Q2:为什么用户最近感觉Claude Code配额消耗变快了?
A:主要有几个原因:一是Anthropic将缓存TTL从一小时改回五分钟,导致长会话更容易出现缓存未命中;二是100万Token超长上下文窗口在缓存未命中时成本极高;三是缓存代码本身存在已知漏洞,可能导致数据统计不准确。此外,也有观点认为Anthropic的配额实际上对应的处理时长本身已缩减。
Q3:Anthropic打算如何解决Claude Code上下文窗口过大导致成本过高的问题?
A:Claude Code创始人Boris Cherny透露,Anthropic正在研究将默认上下文窗口从100万Token缩减至40万Token,同时为有需要的用户保留手动选择100万Token的选项。目前已有相关配置项可供使用,用户可以提前调整以控制成本。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。