Anthropic上周发布的Opus 4.7在推出时附带了更严格的安全防护机制,旨在防止滥用行为。然而,这些防护措施也意外阻断了大量合规的正常使用场景。
Opus 4.7的发布紧随Anthropic宣布Mythos模型之后——该模型据称在漏洞发现与利用方面能力过强,因此不向公众开放。尽管外界普遍认为这一风险评估带有自利性质,但Anthropic仍决定以Opus 4.7作为测试平台,部署高度警觉的安全护栏。
Anthropic表示:"我们在发布Opus 4.7时配套了能够自动检测并拦截涉及禁止或高风险网络安全用途请求的安全防护机制。通过对这些防护措施的实际部署,我们将积累经验,逐步推进Mythos级别模型的广泛发布。"
然而,Anthropic只需仔细查阅其Claude Code的GitHub仓库,便能从中获得大量有价值的反馈。针对可接受使用政策(AUP)分类器的投诉急剧增加,用户普遍反映正常工作受到了干扰。
安全防护越严格,误报就越多——Claude变得过于谨慎,频繁拒绝回应无害请求。一张由Claude整理生成的AUP拒绝投诉趋势图清晰呈现了这一问题。
Claude Code用户数月来持续在GitHub上反映被错误拒绝的问题,但此前投诉数量相对平稳。
2025年7月至9月,此类投诉每月约为两至三条。其中一个典型案例是编号4373的议题:"来自claude.ai的内存授权码触发API政策错误。"
2025年10月至11月,AUP相关拒绝的投诉量上升至每月五至七条,例如编号8784的议题:"Claude 4.5在处理正常请求时随机抛出API错误:Claude Code无法响应该请求。"
12月相关投诉较少,这或许与美国节假日期间活跃度下降有关。
1月投诉数量回升至约八条。提交编号16129议题"Claude Code中反复出现AUP误判违规"的开发者指出:"技术性软件开发对话不应触发AUP违规。安全过滤器对良性内容的识别明显过于激进。"2月和3月的情况与此相近。
进入4月后,情况彻底失控。
仅在4月,开发者已提交超过30份疑似误报,涉及安全、通用开发及科学类请求被拒等多个方面。
具体案例包括:
编号48442:《持续性AUP误报——4个会话中出现40余次误报,涉及多个不相关项目(心理学书籍、网页应用、基础设施、机器人)》,记录了Claude拒绝处理多条俄语提示词的问题。
编号49751:《Opus 4.7将标准计算结构生物学标记为使用政策违规,相较4.6版本出现功能退步》,描述了计算结构生物学任务被误判标记的情况。
编号50916:《使用政策问题》,由路易斯安那州立大学网络中心及应用网络安全实验室主任Golden G. Richard III提交。他写道:"我花费每月200美元以上,基本的编辑辅助请求却遭到拒绝,这实在难以接受。这是一个与我的教材《网络安全实战》配套的实验室,我完全了解AI模型被滥用于网络攻击的潜在风险,但模型拒绝为包含简单加密练习的实验室内容校对,实属荒谬。如果模型被限制到连网络安全教育者和研究人员都无法正常使用的程度,这究竟对安全领域有何正面意义?"
编号48723:《Claude Code在读取原始数据文件时持续报AUP违规错误(附示例)》,描述了Claude在被要求读取一份孩之宝Shrek玩具广告PDF时抛出AUP错误的情况。提交该议题的开发者随后发现,文件中某段特定的PDF内容流语法触发了Claude的拒绝响应,其实际内容翻译为"CHARACTER OR FOR DONKEY UNDERNEATH(驴子下方的角色)"。
此外还有编号49679:《已获网络安全用例豁免授权,在Claude Chat中可正常使用,但在Claude Code API中仍持续收到安全系统的误报。已批准的网络安全用例豁免未能完整传递至使用Opus的Claude Code API》,描述了Anthropic专为安全研究人员设立的绕过安全护栏豁免机制,在API层面无法正常生效的问题。
其他近期疑似误判拒绝的案例还有:50795、51352、51794、52086、50494、49904、46147和51248等多个编号。
投诉数量的部分增长或许可归因于用户群体的扩大——用户越多,反馈问题的人自然也越多。但显然,大量Claude用户确实遭受了过激的AUP分类器的不当拦截。
从已泄露的Claude Code源代码来看,其情感分析采用了正则表达式匹配这一简化方式,AUP分类器很可能也沿用了类似的捷径——仅逐字检测是否含有敏感词汇,而不考虑上下文语境。
Anthropic对此未予置评。
Q&A
Q1:Claude Opus 4.7的AUP分类器为什么会产生大量误报?
A:Claude Opus 4.7在发布时配套了更严格的安全护栏,旨在自动检测并拦截涉及禁止或高风险网络安全用途的请求。然而,从已泄露的Claude Code源代码来看,其分类器可能采用了正则表达式匹配等简化方式,仅检测敏感词汇而不考虑上下文语境,导致大量无害的合规请求也被错误拦截。
Q2:Anthropic为网络安全研究人员设立的AUP豁免机制是否有效?
A:根据开发者反馈,这一豁免机制存在明显缺陷。编号49679的GitHub议题显示,已获批准的网络安全用例豁免授权在Claude Chat中可正常生效,但在通过API使用Claude Code(Opus版本)时,豁免权限未能完整传递,安全系统仍会持续产生误报拦截。
Q3:Claude Opus 4.7的AUP误报问题从什么时候开始明显加剧?
A:根据GitHub上的投诉趋势,2025年7月至9月每月约有两至三条相关投诉,10月至11月上升至五至七条,1月至3月维持在约八条左右。进入4月后,投诉数量急剧攀升,仅一个月内开发者便提交了超过30份疑似误报报告,涉及安全、通用开发及科学类请求等多个领域。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。