Anthropic上周发布的Opus 4.7在推出时附带了更严格的安全防护机制,旨在防止滥用行为。然而,这些防护措施也意外阻断了大量合规的正常使用场景。
Opus 4.7的发布紧随Anthropic宣布Mythos模型之后——该模型据称在漏洞发现与利用方面能力过强,因此不向公众开放。尽管外界普遍认为这一风险评估带有自利性质,但Anthropic仍决定以Opus 4.7作为测试平台,部署高度警觉的安全护栏。
Anthropic表示:"我们在发布Opus 4.7时配套了能够自动检测并拦截涉及禁止或高风险网络安全用途请求的安全防护机制。通过对这些防护措施的实际部署,我们将积累经验,逐步推进Mythos级别模型的广泛发布。"
然而,Anthropic只需仔细查阅其Claude Code的GitHub仓库,便能从中获得大量有价值的反馈。针对可接受使用政策(AUP)分类器的投诉急剧增加,用户普遍反映正常工作受到了干扰。
安全防护越严格,误报就越多——Claude变得过于谨慎,频繁拒绝回应无害请求。一张由Claude整理生成的AUP拒绝投诉趋势图清晰呈现了这一问题。
Claude Code用户数月来持续在GitHub上反映被错误拒绝的问题,但此前投诉数量相对平稳。
2025年7月至9月,此类投诉每月约为两至三条。其中一个典型案例是编号4373的议题:"来自claude.ai的内存授权码触发API政策错误。"
2025年10月至11月,AUP相关拒绝的投诉量上升至每月五至七条,例如编号8784的议题:"Claude 4.5在处理正常请求时随机抛出API错误:Claude Code无法响应该请求。"
12月相关投诉较少,这或许与美国节假日期间活跃度下降有关。
1月投诉数量回升至约八条。提交编号16129议题"Claude Code中反复出现AUP误判违规"的开发者指出:"技术性软件开发对话不应触发AUP违规。安全过滤器对良性内容的识别明显过于激进。"2月和3月的情况与此相近。
进入4月后,情况彻底失控。
仅在4月,开发者已提交超过30份疑似误报,涉及安全、通用开发及科学类请求被拒等多个方面。
具体案例包括:
编号48442:《持续性AUP误报——4个会话中出现40余次误报,涉及多个不相关项目(心理学书籍、网页应用、基础设施、机器人)》,记录了Claude拒绝处理多条俄语提示词的问题。
编号49751:《Opus 4.7将标准计算结构生物学标记为使用政策违规,相较4.6版本出现功能退步》,描述了计算结构生物学任务被误判标记的情况。
编号50916:《使用政策问题》,由路易斯安那州立大学网络中心及应用网络安全实验室主任Golden G. Richard III提交。他写道:"我花费每月200美元以上,基本的编辑辅助请求却遭到拒绝,这实在难以接受。这是一个与我的教材《网络安全实战》配套的实验室,我完全了解AI模型被滥用于网络攻击的潜在风险,但模型拒绝为包含简单加密练习的实验室内容校对,实属荒谬。如果模型被限制到连网络安全教育者和研究人员都无法正常使用的程度,这究竟对安全领域有何正面意义?"
编号48723:《Claude Code在读取原始数据文件时持续报AUP违规错误(附示例)》,描述了Claude在被要求读取一份孩之宝Shrek玩具广告PDF时抛出AUP错误的情况。提交该议题的开发者随后发现,文件中某段特定的PDF内容流语法触发了Claude的拒绝响应,其实际内容翻译为"CHARACTER OR FOR DONKEY UNDERNEATH(驴子下方的角色)"。
此外还有编号49679:《已获网络安全用例豁免授权,在Claude Chat中可正常使用,但在Claude Code API中仍持续收到安全系统的误报。已批准的网络安全用例豁免未能完整传递至使用Opus的Claude Code API》,描述了Anthropic专为安全研究人员设立的绕过安全护栏豁免机制,在API层面无法正常生效的问题。
其他近期疑似误判拒绝的案例还有:50795、51352、51794、52086、50494、49904、46147和51248等多个编号。
投诉数量的部分增长或许可归因于用户群体的扩大——用户越多,反馈问题的人自然也越多。但显然,大量Claude用户确实遭受了过激的AUP分类器的不当拦截。
从已泄露的Claude Code源代码来看,其情感分析采用了正则表达式匹配这一简化方式,AUP分类器很可能也沿用了类似的捷径——仅逐字检测是否含有敏感词汇,而不考虑上下文语境。
Anthropic对此未予置评。
Q&A
Q1:Claude Opus 4.7的AUP分类器为什么会产生大量误报?
A:Claude Opus 4.7在发布时配套了更严格的安全护栏,旨在自动检测并拦截涉及禁止或高风险网络安全用途的请求。然而,从已泄露的Claude Code源代码来看,其分类器可能采用了正则表达式匹配等简化方式,仅检测敏感词汇而不考虑上下文语境,导致大量无害的合规请求也被错误拦截。
Q2:Anthropic为网络安全研究人员设立的AUP豁免机制是否有效?
A:根据开发者反馈,这一豁免机制存在明显缺陷。编号49679的GitHub议题显示,已获批准的网络安全用例豁免授权在Claude Chat中可正常生效,但在通过API使用Claude Code(Opus版本)时,豁免权限未能完整传递,安全系统仍会持续产生误报拦截。
Q3:Claude Opus 4.7的AUP误报问题从什么时候开始明显加剧?
A:根据GitHub上的投诉趋势,2025年7月至9月每月约有两至三条相关投诉,10月至11月上升至五至七条,1月至3月维持在约八条左右。进入4月后,投诉数量急剧攀升,仅一个月内开发者便提交了超过30份疑似误报报告,涉及安全、通用开发及科学类请求等多个领域。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。