过去一个月里,抱怨Claude输出质量下降的用户并没有错觉。
Anthropic于近日发布了一份内部调查报告,确认在今年3月至4月期间,三项独立的调整导致Claude Code、Claude智能体SDK以及Claude Cowork的用户体验明显下降。Anthropic表示,Claude的API接口未受此次问题影响。
在此期间,大量用户强烈抱怨Claude的输出质量,而服务可用性方面的问题更是雪上加霜。对此,Anthropic强调,模型能力的退步并非有意为之,而是多项调整意外出错,由此造成了AI能力逐渐下滑的错误印象。
第一个问题发生在3月4日,Anthropic将Claude Code的默认推理强度从"高"调整为"中"。推理强度决定了模型在处理特定推理任务时投入的计算量,此次调整的初衷是通过减少思考时间来降低响应延迟。
"这是一个错误的权衡取舍,"Anthropic坦承。"在用户反映更倾向于默认使用更高智能、仅在简单任务时才选择低强度模式后,我们于4月7日回滚了该改动。"
可以推测,将Opus 4.6和Sonnet 4.6的默认推理强度调低,同时也会降低推理负载——模型"思考"得更少,消耗的Token也更少,从而更节省有限的算力资源。目前最新版本的Claude Code(v2.1.118)已将Sonnet 4.6的默认强度设置为"超高"。
第二个问题是一个Bug,出现于3月26日的缓存优化更新中。该Bug导致每一轮提示词与响应的交互循环都会清除已缓存的会话数据。
Claude会将输入Token缓存一小时,这可以让连续的API调用更快、更经济。工程师们原本希望对闲置超过一小时的用户清除输出Token(即思考记录),因为缓存在这段时间后便不再被使用。这一改动的本意是通过删除不再相关的旧思考记录来降低恢复会话的成本,然而工程师反而引入了一个Bug,使得每轮对话都会清除思考记录,最终导致Claude"变得健忘且重复啰嗦"。该问题已于4月10日在Sonnet 4.6和Opus 4.6上完成修复。
第三个问题源于4月16日的一次系统提示词修订。Anthropic此次修改旨在减少Claude模型的冗长输出,新增的段落乍看之下人畜无害:
"长度限制:工具调用之间的文字内容不超过25个词;最终回复不超过100个词,除非任务需要更多细节。"
经过数周内部测试后,模型质量评估认为该改动是安全的。然而,在Opus 4.7发布时随之推出这一系统提示词后,后续进行的消融测试(即通过移除系统提示词中的特定指令来衡量其影响)显示,Opus 4.6和4.7的性能均下降了3%。相关系统提示词调整已于4月20日回滚。
Anthropic承诺,未来将针对Claude Code的公开版本进行更多内部测试,同时改进Code Review工具,优化系统提示词变更的评估流程,并在社交平台X上新开设一个@ClaudeDevs账号,"为我们深度解释产品决策及其背后的逻辑提供空间"。
就在发布上述调查报告的前一天,Anthropic增长负责人Amol Avasare刚刚在X上就一项未经公告的A/B测试作出解释,并表示公司将努力做到更直接的沟通,让用户不必再通过X和Reddit等社交媒体渠道才能获知产品问题。
为帮助用户找回良好的使用体验,Anthropic已为所有人重置了账户的使用额度。
"这不是用户应当从Claude Code中得到的体验,"Anthropic表示。
Q&A
Q1:Anthropic是故意降低Claude的能力吗?
A:不是故意的。Anthropic在官方调查报告中明确表示,Claude性能下降并非有意为之,而是3月至4月间三项独立的技术调整意外出错所致。包括将推理强度默认值调低、引入导致会话记录被重复清除的缓存Bug,以及一项无意中拉低模型表现约3%的系统提示词修改。这些问题被发现后均已陆续回滚修复。
Q2:Claude Code性能下降问题现在修复了吗?
A:是的,已基本修复。Anthropic分三个阶段完成了回滚:4月7日恢复了Claude Code的高推理强度默认设置;4月10日修复了导致模型健忘且重复的缓存Bug;4月20日回滚了引发性能下降的系统提示词改动。最新版Claude Code(v2.1.118)已将Sonnet 4.6的默认推理强度设置为"超高",并重置了所有用户的账户使用额度。
Q3:Anthropic打算如何避免类似问题再次发生?
A:Anthropic承诺将从多个层面加以改进:在Claude Code公开版本发布前增加更多内部测试环节;完善Code Review工具;强化对系统提示词变更影响的评估机制。此外,公司还将在X平台开设专属的@ClaudeDevs账号,用于向开发者深度解释产品决策逻辑,减少用户只能从社交媒体上被动获悉产品问题的情况。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。