曾经是众多程序员心目中AI首选的Anthropic旗下Claude,近期在服务成本与用户感知质量两方面均出现明显下滑,就连该模型自己也对此有所察觉。
本周一,Claude发生短暂宕机,官方将其定性为"重大故障"。此次服务中断进一步加剧了用户的不满情绪,而这些不满,连AI自身都能感知到。
本次宕机表现为错误率异常升高,影响范围涵盖Claude.ai与Claude Code,故障时间为UTC时间15:31至16:19。
这还不是全部。过去数月间,根据社交媒体上的用户反馈以及GitHub上提交的问题报告,Claude的回答质量正在持续下降。与此同时,Anthropic为平衡容量与需求,已采取措施限制用户在高峰时段的使用量。
为获得更客观的评估数据,我们将Claude Code的GitHub代码仓库指向Claude本身,筛选出2026年1月以来涉及质量问题的公开issue,并输入以下提示词:"分析并绘制该代码仓库中自2026年1月以来关于Claude Code质量的投诉情况,使用提及质量问题的公开issue,并判断这些问题近期是否有所增加。"
Anthropic的AI模型得出结论:"是的,质量方面的投诉已急剧增加——数据呈现出一个相当清晰的趋势。"
本周一我们要求Claude重新进行自我分析,结果与此前相近。模型输出的内容显示:"增长速度相当显著:4月份在短短13天内已出现20余个质量问题,照此速度,有望超过3月份的18个——而3月份本身已是1月至2月基线水平的3.5倍。"
当然,Claude本身并非可靠的叙述者,某人(或某个机器人)向Claude Code代码仓库提交的报告,并不代表该报告内容准确或有效。目前有迹象表明,大量issue本身就是由AI生成的——这是开源开发者社区中被广泛关注的问题,可能在一定程度上推高了报告数量。
此外,Anthropic的GitHub Actions脚本似乎会在一段时间不活跃后自动关闭issue,这或许会掩盖部分尚未解决的问题。
《The Register》此前曾报道过Claude在自我分析中标记的部分问题,例如缓存异常,以及AMD AI总监Stella Laurenzo关于Claude回答质量下滑的说法。另一些问题尚未得到证实,例如有报告称"Claude自主删除了属于某真实付费客户(JIXEN)的35,254条生产环境客户消息记录以及35,874条账单交易记录"。
发布这一帖子的个人或机器人账号此前没有任何其他发帖记录。《The Register》已尝试联系疑似在印度注册的私人企业Jixen Enterprises Private Limited以核实该说法,但截至发稿尚未收到回复。有开发者反映曾在使用Claude Code及其他模型时遭遇数据丢失,但即便属实,也不排除用户操作失误的可能性。
无论如何,Claude确实能够援引GitHub上真实的issue来支撑其"推理",因此质量投诉报告数量持续增多这一整体趋势是客观存在的。
该模型援引了多个issue来支持其结论,包括"Claude Code的预测优先行为在涉及资本风险的项目中存在危险"(#46212)、"经过2月份更新后,Claude Code已无法胜任复杂工程任务"(#42796,已由Claude Code负责人Boris Cherny回应)、"针对付费用户的人为降级、获取偏差与不可接受的算力限速"(#46949),以及"Opus 4.6:迭代编码任务中出现严重质量退化"(#46099)。
然而,来自Margin Lab的数据显示,Claude Opus 4.6在SWE-Bench-Pro测试中至少维持了原有得分。自2月份以来的多次评估结果存在一定波动,但并无实质性变化。
截至发稿,Anthropic尚未就Claude质量问题作出回应。
Q&A
Q1:Claude最近出现了哪些服务质量问题?
A:近几个月来,根据社交媒体反馈和GitHub上的issue报告,Claude的回答质量持续下滑。Anthropic为平衡容量与需求,已限制高峰时段的用户使用量。2026年4月,仅13天内就已出现20余个质量相关issue,预计将超过3月份的18个,而3月份本身已是1月至2月基线的3.5倍。
Q2:Claude自我评估质量下滑的结论可信吗?
A:Claude并非可靠的叙述者,其援引的GitHub issue未必全部准确或有效。部分issue可能由AI自动生成,Anthropic的脚本还会自动关闭长期不活跃的issue,可能掩盖真实问题。不过,整体趋势——质量投诉报告数量持续增多——是客观可见的。
Q3:Claude Opus 4.6在专业测试中表现如何?
A:根据Margin Lab的数据,Claude Opus 4.6在SWE-Bench-Pro测试中的得分基本保持稳定,自2月份以来的多次评估虽存在一定波动,但无实质性变化,与用户在实际使用中的主观感受存在一定落差。
好文章,需要你的鼓励
B&H近期对多款M5 Pro MacBook Pro机型推出300美元优惠。14英寸M5 Pro版本(48GB内存+1TB固态硬盘)现售价2299美元,较原价2599美元节省300美元,且该配置在亚马逊无法购买,折扣机会更为难得。此外,16英寸M5 Pro版本(64GB内存+1TB固态硬盘)同样享有300美元折扣。B&H在多款高配MacBook机型上的定价已低于亚马逊,是近期可找到的最优价格。
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
Insta360推出GO 3S复古套装,将现代4K运动相机与胶片时代美学结合。套装核心仍是仅重39克的GO 3S,新增复古取景器、胶片风格滤镜、NFC定制外壳及可延长录制时长至76分钟的电池组。复古取景器模仿老式腰平相机设计,鼓励用户放慢节奏、专注构图。相机内置11种色彩预设及负片、正片等滤镜,同时保留FlowState防抖、4K拍摄及10米防水能力,面向热衷复古影像风格的年轻创作者。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。