Anthropic旗下Mythos模型能力提升超出预期,AI安全机构发布最新评测报告

英国AI安全研究所(AISI)发布最新报告,对Anthropic旗下尚未公开发布的强大模型Claude Mythos进行了新一轮测试。结果显示,新版Mythos在网络安全任务中的表现已超越其早期版本及OpenAI的GPT-5.5,首次完成了此前无法解决的"冷却塔"网络靶场测试。AISI指出,AI模型在网络任务上的能力大约每4.7个月翻倍,而Mythos和GPT-5.5的表现已超越这一趋势。不过,受测试中2.5M token上限的制约,实际能力可能被低估。

Anthropic旗下的Claude Mythos模型此前被该公司认为过于强大而不宜公开发布,但最新报告显示,该模型已经具备了更多新能力。

英国AI安全研究院(AISI)于周三发布的一篇博客文章中披露,研究团队对Mythos的最新版本进行了测试,结果显示其表现不仅优于此前测试成绩,还超越了OpenAI的GPT-5.5——而距Mythos首次发布仅过去一个月。

"最新版Mythos Preview在我们的两个网络靶场测试中均取得了完成记录:在名为'最后幸存者'的靶场中10次尝试完成了6次,在此前从未被任何模型攻克的'冷却塔'靶场中10次尝试完成了3次,"博文作者写道。"这是首次有模型成功完成我们第二个网络靶场的全部任务。"

上个月,Anthropic正式宣布推出Mythos Preview,并发起Project Glasswing网络安全测试联盟——该联盟由Anthropic与多家竞争性科技公司及AI实验室联合组建,部分成员获得了Mythos的有限访问权限。彼时,英国AISI已对其进行了初步评估,认为该模型"在网络安全能力已快速提升的背景下,相较前代前沿模型又迈上了新台阶"。

这一第三方独立评测有助于平衡外界对Mythos的两种极端看法——一种认为相关宣传不过是营销噱头,另一种则认为这标志着AI能力出现了灾难性跃升。事实上,该模型的真实能力很可能介于两者之间。

AISI此次更新测试同样表明,模型能力的提升并不局限于独立版本的迭代发布,在同一模型的版本演进过程中同样可以发生。

AISI指出,AI模型在处理网络安全相关任务方面正在快速进步,这对整个网络安全领域具有深远影响,尤其是考虑到Mythos在发现软件漏洞方面表现出的突出能力。

"2026年2月,我们内部估算,自2024年底以来,AI模型可完成网络任务的时长每4.7个月翻一番——这已比我们2025年11月估算的8个月有所加速,"博文作者写道。"此后,AISI又对两款新模型——Claude Mythos Preview与GPT-5.5——进行了评测,两者均大幅超越了上述翻番速率趋势。"

不过,作者也坦承,目前尚不清楚这一趋势是否会持续,或者上述发现是否意味着一种长期性的能力跃升。Mythos与GPT-5.5或许只是整体模型演进规律中的阶段性例外。

与此同时,AISI也明确指出,现有测试存在若干无法消除的未知因素。测试将任务Token上限设定为250万,以便研究人员能够更好地横向比较不同时期的性能表现。但这一设定本身就"低估了前沿模型的真实能力上限",研究人员如此写道。

"由于Mythos Preview和GPT-5.5在我们网络安全测试套件中最长任务上的成功率接近100%——即便在250万Token的限制下——两者的误差上界都相当大,"博文继续写道。"我们的测试任务也还不够复杂,无法判断在任务长度进一步增加时,模型可靠性会以怎样的速率下降。这使得最新几款模型已处于我们现有测试套件可测量范围的极限。"

这一情况不仅使模型的失效边界难以衡量,也意味着若取消Token上限,模型在这些任务上的成功率将大幅提升,甚至高到"时间跨度已无法计算"的程度。在Token配额更充裕、并配备复杂智能体基础设施的条件下,模型将展现出远超目前的能力。

"250万Token的上限相对较低——在我们的网络靶场实验中,我们使用了高达1亿Token,并发现在此预算之上性能仍有提升空间,近期模型尤为如此,它们从更高Token限额中获益的幅度更为显著,"博文补充道。

Q&A

Q1:Claude Mythos是什么,为什么Anthropic不公开发布它?

A:Claude Mythos是Anthropic开发的一款前沿AI模型,被认为能力过于强大,因此Anthropic目前不公开发布,仅通过Project Glasswing联盟向有限合作伙伴开放访问权限。英国AI安全研究院(AISI)的测试表明,Mythos在网络安全任务上表现突出,尤其擅长发现软件漏洞,这也是其被谨慎管控的重要原因之一。

Q2:AISI对Claude Mythos的最新测试发现了什么?

A:AISI测试了Mythos的更新版本,发现其成功完成了此前从未被任何模型攻克的"冷却塔"网络靶场任务,整体表现超越了上一版Mythos和OpenAI的GPT-5.5。此外,测试还发现AI模型可完成网络任务的时长自2024年底以来每4.7个月翻一番,而Mythos和GPT-5.5的表现已大幅超出这一趋势。

Q3:AISI测试中250万Token上限对结果有什么影响?

A:250万Token的限制是为了便于横向比较,但研究人员指出这低估了模型的真实能力。在此限制下Mythos和GPT-5.5的成功率已接近100%,若放开Token上限,成功率还将进一步提升,甚至高到无法计算任务完成时间的程度。AISI在实验中使用高达1亿Token时,仍发现性能持续提升。

来源:ZDNET

0赞

好文章,需要你的鼓励

2026

05/18

17:14

分享

点赞

邮件订阅