Claude Code缓存机制调整引发用户争议，配额消耗速度加快

Anthropic近期将Claude Code提示缓存的TTL（存活时间）从一小时缩短至五分钟，尽管官方声称此举不会增加成本，但大量用户反映配额消耗明显加快。有用户指出，五分钟TTL对长会话、高上下文的使用场景极为不利。Anthropic员工回应称，该变更对单次调用场景实际更经济，但承认百万token上下文窗口导致缓存未命中时成本显著上升，目前正在研究将默认上下文窗口调整为40万token。

Anthropic上个月将Claude Code提示缓存的TTL（存活时间）从一小时缩短至五分钟，适用于大多数请求。尽管该公司表示此举不会增加用户成本，但仍有用户反映配额消耗明显加快。

用户Sean Swanson提交了一份错误报告，指出Anthropic曾于2月1日前后为Claude Code上下文引入一小时缓存机制，随后又于3月7日前后将其改回五分钟缓存。Swanson表示："五分钟的TTL对以长会话、高上下文为典型使用场景的Claude Code用户而言，惩罚力度明显过重。"

在使用AI编程助手或智能体时，上下文是指随用户提示一并发送的附加数据，例如已有代码或背景说明。上下文能够提升AI的响应准确性，但同时也需要更多的处理资源。

Claude的提示缓存机制可避免对已处理过的提示（包括上下文和背景信息）进行重复处理。缓存TTL分为五分钟和一小时两种。写入五分钟缓存的Token消耗比基准价格高出25%，写入一小时缓存则高出100%，但从缓存中读取数据的成本约为基准价格的10%。

Bun JavaScript运行时的创始人、现任职于Anthropic的Jarred Sumner认可Swanson的分析是"很好的探查工作"，但表示将缓存改回五分钟实际上降低了Claude Code的使用成本，原因是"Claude Code中有相当一部分请求属于一次性调用，缓存的上下文只被使用一次，不会再被访问"。Sumner还表示，Claude Code客户端会自动确定缓存TTL，目前也无计划提供全局设置选项。

对此，Swanson修订了自己的分析，承认使用子智能体的会话确实能从五分钟缓存较低的写入成本中获益，因为这些子智能体交互频繁，"缓存几乎从不过期"。但他同时指出，自己已连续订阅每月200美元的套餐超过六个月，直到3月份才首次遭遇配额限制。他表示，"额外的消耗速率"正在让"这项曾经优秀的服务变得难以使用"。

另一个影响因素是，付费套餐中Claude Opus 4.6或Sonnet 4.6模型提供的100万Token超长上下文窗口会显著推高成本，尤其是在缓存未命中时。Claude Code的创始人Boris Cherny表示："在使用100万Token上下文窗口时，提示缓存未命中的代价非常高……如果你离开电脑超过一小时后再继续一个已停滞的会话，往往会触发完全的缓存未命中。"他还透露，Anthropic正在研究将默认上下文窗口调整为40万Token，并为有需要的用户保留100万Token的选项。目前已有相关配置项可供使用。

Cherny指出，上下文规模扩大已成为普遍趋势，原因在于用户"正在引入大量技能，或同时运行多个智能体及后台自动化任务"。

部分开发者认为，缓存重建和缓存未命中是导致Claude Code配额耗尽的主要原因。目前问题已相当严重，Pro用户（每月20美元）在五小时内可能仅能发送两条提示。此外，缓存代码中已发现多处漏洞，有用户直言："在这些问题修复之前，关于五分钟与一小时缓存的讨论很可能完全没有意义，因为相关数据本身就存在严重偏差。"

对缓存优化的持续关注，也可能从侧面印证了一个现实：Anthropic的配额所能购买到的实际处理时长，已悄然缩水。

Swanson并非唯一反映Claude性能下降的用户。例如，一位企业团队套餐用户表示："三月份我可以整天使用Opus，效果非常好。但从三月底到四月，我遇到了不到两小时就耗尽会话用量的情况，模型陷入反复思考的循环，多次'意识到'同样的事情，输出了大量'但等等，我其实需要做X'之类的段落，内容只有细微差别。"AMD的一位AI总监也表达了类似看法。

缓存优化固然值得关注，但它似乎不足以解释用户所反映的全部问题。

Q&A

Q1：Claude Code的提示缓存机制是如何工作的？

A：Claude的提示缓存机制可以避免对已处理过的提示（包括上下文和背景信息）进行重复处理，从而节省Token消耗。缓存TTL分为五分钟和一小时两种。写入五分钟缓存的成本比基准价格高25%，写入一小时缓存则高100%，但从缓存中读取的成本仅为基准价格的10%。缓存命中时成本较低，未命中时则需重新处理，成本大幅上升。

Q2：为什么用户最近感觉Claude Code配额消耗变快了？

A：主要有几个原因：一是Anthropic将缓存TTL从一小时改回五分钟，导致长会话更容易出现缓存未命中；二是100万Token超长上下文窗口在缓存未命中时成本极高；三是缓存代码本身存在已知漏洞，可能导致数据统计不准确。此外，也有观点认为Anthropic的配额实际上对应的处理时长本身已缩减。

Q3：Anthropic打算如何解决Claude Code上下文窗口过大导致成本过高的问题？

A：Claude Code创始人Boris Cherny透露，Anthropic正在研究将默认上下文窗口从100万Token缩减至40万Token，同时为有需要的用户保留手动选择100万Token的选项。目前已有相关配置项可供使用，用户可以提前调整以控制成本。

来源：The Register

0赞

好文章，需要你的鼓励

Claude Code缓存机制调整引发用户争议，配额消耗速度加快

来源：The Register

2026

04/14

10:18

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

微软记事本悄然移除 Copilot 按钮，品牌重塑策略显现

Meta正打造马克·扎克伯格AI数字分身与员工互动

微软着手重组"令人困惑"的Windows预览体验计划

AMD：内存而非算力，将成为AI数据中心的下一个瓶颈

Commvault推出AI新功能，保障智能体工作流与数据安全

GLM-5.1发布：Z.ai推出可长时间自主运行的AI编程智能体

Meta据报道正打造马克·扎克伯格AI数字分身

美国各州隐私保护法：如何限制AI监控与车牌追踪

Anthropic推出专属网络安全AI模型，企业争相驾驭AI变革浪潮

Cloudflare 扩展智能体云平台，推出构建与扩展 AI 智能体的全新工具集

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会