过去一个月里,抱怨Claude输出质量下降的用户并没有错觉。
Anthropic于近日发布了一份内部调查报告,确认在今年3月至4月期间,三项独立的调整导致Claude Code、Claude智能体SDK以及Claude Cowork的用户体验明显下降。Anthropic表示,Claude的API接口未受此次问题影响。
在此期间,大量用户强烈抱怨Claude的输出质量,而服务可用性方面的问题更是雪上加霜。对此,Anthropic强调,模型能力的退步并非有意为之,而是多项调整意外出错,由此造成了AI能力逐渐下滑的错误印象。
第一个问题发生在3月4日,Anthropic将Claude Code的默认推理强度从"高"调整为"中"。推理强度决定了模型在处理特定推理任务时投入的计算量,此次调整的初衷是通过减少思考时间来降低响应延迟。
"这是一个错误的权衡取舍,"Anthropic坦承。"在用户反映更倾向于默认使用更高智能、仅在简单任务时才选择低强度模式后,我们于4月7日回滚了该改动。"
可以推测,将Opus 4.6和Sonnet 4.6的默认推理强度调低,同时也会降低推理负载——模型"思考"得更少,消耗的Token也更少,从而更节省有限的算力资源。目前最新版本的Claude Code(v2.1.118)已将Sonnet 4.6的默认强度设置为"超高"。
第二个问题是一个Bug,出现于3月26日的缓存优化更新中。该Bug导致每一轮提示词与响应的交互循环都会清除已缓存的会话数据。
Claude会将输入Token缓存一小时,这可以让连续的API调用更快、更经济。工程师们原本希望对闲置超过一小时的用户清除输出Token(即思考记录),因为缓存在这段时间后便不再被使用。这一改动的本意是通过删除不再相关的旧思考记录来降低恢复会话的成本,然而工程师反而引入了一个Bug,使得每轮对话都会清除思考记录,最终导致Claude"变得健忘且重复啰嗦"。该问题已于4月10日在Sonnet 4.6和Opus 4.6上完成修复。
第三个问题源于4月16日的一次系统提示词修订。Anthropic此次修改旨在减少Claude模型的冗长输出,新增的段落乍看之下人畜无害:
"长度限制:工具调用之间的文字内容不超过25个词;最终回复不超过100个词,除非任务需要更多细节。"
经过数周内部测试后,模型质量评估认为该改动是安全的。然而,在Opus 4.7发布时随之推出这一系统提示词后,后续进行的消融测试(即通过移除系统提示词中的特定指令来衡量其影响)显示,Opus 4.6和4.7的性能均下降了3%。相关系统提示词调整已于4月20日回滚。
Anthropic承诺,未来将针对Claude Code的公开版本进行更多内部测试,同时改进Code Review工具,优化系统提示词变更的评估流程,并在社交平台X上新开设一个@ClaudeDevs账号,"为我们深度解释产品决策及其背后的逻辑提供空间"。
就在发布上述调查报告的前一天,Anthropic增长负责人Amol Avasare刚刚在X上就一项未经公告的A/B测试作出解释,并表示公司将努力做到更直接的沟通,让用户不必再通过X和Reddit等社交媒体渠道才能获知产品问题。
为帮助用户找回良好的使用体验,Anthropic已为所有人重置了账户的使用额度。
"这不是用户应当从Claude Code中得到的体验,"Anthropic表示。
Q&A
Q1:Anthropic是故意降低Claude的能力吗?
A:不是故意的。Anthropic在官方调查报告中明确表示,Claude性能下降并非有意为之,而是3月至4月间三项独立的技术调整意外出错所致。包括将推理强度默认值调低、引入导致会话记录被重复清除的缓存Bug,以及一项无意中拉低模型表现约3%的系统提示词修改。这些问题被发现后均已陆续回滚修复。
Q2:Claude Code性能下降问题现在修复了吗?
A:是的,已基本修复。Anthropic分三个阶段完成了回滚:4月7日恢复了Claude Code的高推理强度默认设置;4月10日修复了导致模型健忘且重复的缓存Bug;4月20日回滚了引发性能下降的系统提示词改动。最新版Claude Code(v2.1.118)已将Sonnet 4.6的默认推理强度设置为"超高",并重置了所有用户的账户使用额度。
Q3:Anthropic打算如何避免类似问题再次发生?
A:Anthropic承诺将从多个层面加以改进:在Claude Code公开版本发布前增加更多内部测试环节;完善Code Review工具;强化对系统提示词变更影响的评估机制。此外,公司还将在X平台开设专属的@ClaudeDevs账号,用于向开发者深度解释产品决策逻辑,减少用户只能从社交媒体上被动获悉产品问题的情况。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。