Anthropic Claude模型解除出口限制,全球发布重启

美国商务部已解除对Anthropic旗下Claude Fable 5和Mythos 5模型的出口限制。此前,特朗普政府以国家安全为由对上述模型实施管控约三周。目前,Fable 5已恢复全球访问,Mythos 5则向特定国内外合作伙伴开放。Anthropic承诺加强与政府合作,包括预部署测试、信息共享及组建全天候监控越狱威胁的专属团队,并联合亚马逊、微软、谷歌等合作伙伴共同制定AI越狱风险评估框架。

美国已解除对Anthropic旗下最新Claude模型Fable 5和Mythos 5的出口限制。此前约三周,特朗普政府曾将这两款模型列为国家安全风险。

Anthropic在一篇博客文章中确认,Fable 5现已面向全球开放,而美国机构对Mythos 5的访问权限也已于6月26日恢复。Anthropic表示,目前正与政府合作,通过Glasswing项目将Mythos的访问权限扩展至"更广泛的国内外合作伙伴"。该项目允许受信任公司的网络安全研究人员访问Mythos,用于防御目的。

美国商务部长霍华德·卢特尼克在一封被路透社和《纽约时报》获取的信件中表示,Anthropic"在出口或境内转让Claude Mythos和Claude Fable大语言模型时,将不再需要申请许可证"。信件还确认,Anthropic已"与美国政府密切协调,采取措施应对"相关模型所带来的安全风险。

为避免模型发布遭受更长时间的延误,Anthropic同意扩大与政府的合作伙伴关系。该公司还建立了一项与安全研究人员合作、对模型进行红队测试的计划,并组建了专门的内部团队,全天候监控新型越狱威胁的相关报告。

卢特尼克在信中提醒Anthropic,美国"保留重新评估相关决定"并在任何时候重新实施出口限制的权利。但目前,卢特尼克与白宫幕僚长苏西·威尔斯共同在X平台上为Fable 5的重新部署发文庆贺。

"过去两周,我们与Anthropic密切合作,对Fable 5进行分析和审批,以确保在美国政府内部形成共识,并进一步巩固美国在AI领域的领导地位,"卢特尼克表示。

威尔斯则在帖子中为特朗普政府居功,她写道:"政府与私营部门携手合作,实现了前所未有的协同,'美国优先'这一基石是史无前例的。我们共同的优先目标始终如一:以尽可能快速、安全的方式部署最优质的技术。"

Fable 5的代价:常规编程任务或受影响

6月12日,美国商务部下令Anthropic切断美国境外所有用户对其最先进模型的访问权限。这一指令源于外界对中国、俄罗斯等敌对国家可能利用相关模型攻击美国基础设施(如电网或银行系统)的担忧。为此,Anthropic关闭了全部访问渠道,原因是该公司无法实现按国家屏蔽用户的功能。

Anthropic博客特别指出,Mythos被认为"对试图发动网络攻击的恶意行为者极具吸引力"。据Anthropic介绍,该模型"能够比任何其他模型更有效地发现和利用软件漏洞,其能力甚至超越除顶尖专家之外的绝大多数人类安全专业人员",而这种"强大的网络安全能力"可能被用于攻击美国。

Anthropic表示,Fable 5与Mythos 5拥有"相同的底层模型",但与Mythos 5不同,它"不具备此类独特的进攻性能力"。Fable 5面向普通大众设计,在推出之初就已应用了Anthropic有史以来最严格的安全防护措施,而在重新部署之前,这些措施已进一步强化。

经过数周测试,Fable 5已不再容易受到亚马逊研究人员发现的一种绕过方法的攻击——正是这种方法发现了多个软件漏洞,并触发了此前的出口限制。其中最令人担忧的案例是:该模型被诱导生成了演示如何利用某一漏洞的代码。

据Anthropic介绍,测试结果证实,市场上不那么先进的竞品模型(如GPT-5.5和Kimi K2.7)"能够识别出与Fable 5在报告中发现的相同漏洞"。Anthropic由此确认,"该报告所涉及的技术并未暴露出任何Mythos级别的独特网络攻击能力","仅涉及常规的防御性网络安全工作"。

"即便如此,我们仍迅速采取行动,修复了该漏洞利用方法,"Anthropic写道。目前,该越狱方法在超过99%的情况下已被成功拦截。然而,Anthropic坦承,加强安全防护带来了一定"代价",可能导致部分正常请求在"日常编程和调试任务"中遭到误拦。

"我们与政府紧密合作,训练了一个改进版安全分类器,专门用于识别和拦截报告中描述的危险行为,"Anthropic表示。"如果用户向Fable 5提交的请求被拦截,系统将向用户发出通知,并将该请求转发至Opus 4.8处理。"

Anthropic坦言,新分类器在防范模型遭受特定危险攻击的同时,也可能出现"误判"。该公司长期以来坚持认为,构建一个完全"无法被越狱"的模型"几乎不可能",但通过持续加强红队测试,Anthropic希望"确保我们和安全合作伙伴能够率先发现重大越狱漏洞,并在恶意行为者利用之前加以修复"。

Anthropic表示,目前亚马逊发现的攻击方式仅在"极少数情况下"有效,且"模型提供的信息详细程度不足以真正协助网络攻击者"。

Anthropic表示,通过采取"审慎"态度,"绝大多数越狱尝试将无法成功解锁危险行为",且"实施成本极高、难度极大"。

"即便越狱成功,我们的额外防御层——这需要对部分正常请求进行拦截——也能提供额外的风险缓解,"该公司表示。

Anthropic的越狱风险评级计划

Anthropic在博客文章中将亚马逊发现的威胁定性为风险较低,并将其与该公司认为对政府威胁最大的场景加以对比:即能够解锁大范围漏洞并引发不可预测攻击的通用越狱方法。

为优化政企合作机制、确保对最高风险做出最迅速的响应,Anthropic表示,AI行业的目标应当是对风险进行分级,以便在公司内部和政府层面采取相应的干预措施。

目前,Anthropic正与亚马逊、微软、谷歌及其他Glasswing合作伙伴共同"起草一套关于评估AI越狱严重程度及AI开发者应对方式的共识框架"。

Anthropic表示,欢迎其他行业伙伴加入相关讨论。尽管这一过程"尚不完善",但目前重点在于建立评估越狱行为的四项标准:越狱所能提供的能力提升程度、所能实现的攻击类型数量、人类将越狱武器化的难易程度(单一提示词越狱被标记为风险最高),以及发现该越狱方法是否需要专业知识。

基于这一框架,Anthropic已组建专门团队,全天候监控越狱提交渠道。Anthropic还确认,将启动"一项面向安全研究人员的HackerOne新项目,研究人员可通过该项目提交他们在Fable 5中发现的潜在网络安全越狱漏洞",以将红队测试持续列为首要任务。

Anthropic深化政府合作

对Anthropic而言,经历政府测试的一个结果是:在此前因国家安全风险认定问题将美国政府告上法庭之后,双方关系得到了改善。Anthropic曾声称,该认定是政府在遭到拒绝后——该公司拒绝向政府开放模型以用于开发自主武器或实施国内大规模监控——对其实施的报复。

在博客中,Anthropic表示将扩大与政府合作伙伴在部署前测试和评估方面的合作承诺。这些工作将包括:向政府提供前沿模型的早期访问权限、快速分享新型越狱方法的相关信息,以及投入资源开展联合研究,"推动AI评估领域的技术进步"。

Anthropic表示,此次合作"为全球就AI风险与收益开展有效协调提供了初步模板",同时呼吁国会尽快立法,确保所有前沿模型开发者遵循统一标准。

然而,在Anthropic看来,政府的行动速度仍显迟缓。Anthropic首席执行官达里奥·阿莫迪本月早些时候提出了自己的立法建议,并借用《指环王》中的情节加以阐释:

"在《指环王》的一段支线剧情中,两位霍比特人试图唤醒树胡须——一棵睿智却行动迟缓的树人——保护他的森林免遭大军砍伐。问题在于,树胡须的运作节奏与霍比特人截然不同。他仅仅向另一棵树打个招呼就需要整整一天,因此要让他和同伴迅速行动几乎是不可能的。AI与我们政治体制的交汇,正有几分像霍比特人与树胡须之间的困境。"

特朗普最初计划对AI法规采取放任态度,以期刺激创新。然而,Anthropic Mythos的发布让特朗普有所警惕,并于5月要求自愿对前沿模型进行安全测试。据两位知情人士向《纽约时报》透露,特朗普至今"仍在研究一套框架,规范企业应如何正式提交新AI模型供审查,以及应遵守何种标准"。

阿莫迪在文章中呼吁国会迅速行动,重构安全监管体系,以应对AI从"娱乐玩具"跃升为"数据中心里汇聚全国级天才智慧"的现实,否则将面临"国家战略层面"的严峻后果。

然而,专注于AI与国家安全议题的非营利组织前沿安全研究所执行主任艾萨克·哈里斯向路透社表示,在Anthropic深化政府合作之后,最大的悬念在于:"来自中国、安全防护更为薄弱的同等危险能力,将如何在美国市场被政府处置。"

值得注意的是,Anthropic近期指控中国AI公司阿里巴巴发起了迄今规模最大的Claude克隆攻击。对此,Anthropic敦促国会立法,对涉嫌窃取美国公司成果的中国公司予以惩处。否则,无法获取Anthropic模型的恶意行为者可能转而借助安全防护更弱、但能力日益接近的中国模型,发动令美国措手不及的攻击。

Q&A

Q1:Fable 5解除出口限制后,全球用户能正常使用吗?

A:目前Fable 5已面向全球开放访问,但安全防护措施有所升级,部分涉及编程和调试的请求可能会被系统拦截。被拦截的请求会转发至Opus 4.8处理,用户会收到相关通知。整体上,绝大多数正常使用不受影响,但极少数边缘情况可能触发误拦截。

Q2:Anthropic是怎么应对越狱攻击风险的?

A:Anthropic采取了多层应对措施:与亚马逊、微软、谷歌等合作伙伴共同制定越狱风险评级框架,组建全天候监控团队,并通过HackerOne平台向安全研究人员开放漏洞提交渠道。同时训练了改进版安全分类器,当前亚马逊发现的越狱方法在超过99%的情况下已被成功拦截。

Q3:Anthropic与美国政府的合作具体包括哪些内容?

A:根据双方达成的协议,Anthropic将向政府提供前沿模型的早期访问权限,快速分享新型越狱方法信息,并与政府开展联合研究。此外,Anthropic还建立了专门团队配合政府进行模型安全评估,并扩展了Glasswing项目,允许受信任的网络安全研究机构访问Mythos模型用于防御研究。

来源:Arstechnica

0赞

好文章,需要你的鼓励

2026

07/02

15:52

分享

点赞

邮件订阅