英国政府AI安全评估：Mythos AI网络攻击能力究竟几何？

英国政府AI安全研究所（AISI）近日发布了对Anthropic旗下Mythos Preview模型的独立评估报告。结果显示，该模型在单项网络安全任务测试中与其他前沿模型表现相近，但在模拟32步企业网络数据渗透的"最后防线"测试中，Mythos成为首个完整完成全程攻击链的模型。AISI指出，该模型已具备自主攻击小型、防御薄弱企业系统的能力，并建议系统防护设计者同样借助AI工具强化防御体系。

上周，Anthropic宣布将其Mythos Preview模型的初始发布限定在"少数关键行业合作伙伴"范围内，理由是该模型"在计算机安全任务上的表现极为突出"。如今，英国政府旗下的AI安全研究所（AISI）发布了一份针对该模型网络攻击能力的初步评估报告，为Anthropic的说法提供了独立的公开验证。

AISI的研究结果显示，在单项网络安全相关任务的测试中，Mythos与近期其他前沿模型相比并无显著差异。然而，Mythos的独特之处在于，它能够有效地将多个任务串联成多步骤攻击链，而这正是全面渗透某些系统所必需的能力。

"最后关卡"终告攻克

AISI自2023年初便开始对各类AI模型进行专门设计的夺旗（CTF）挑战测试。彼时，GPT-3.5 Turbo连难度较低的"学徒级"任务都难以完成。此后，历代模型的表现持续提升，直至Mythos Preview在这些学徒级CTF任务中的完成率突破85%。

尽管这在技术层面刷新了AISI CTF测试的最高纪录，但近期的竞争模型——如GPT-5.4、Anthropic自家的Opus 4.6以及Codex 5.3——在近几个月的多个CTF难度等级测试中均表现相近，精度差距仅在5%至10%之间。这一改进幅度，似乎还不足以构成Anthropic对Mythos Preview实施限量发布的充分理由。

然而，在模拟实战场景中，Mythos展现出了更为突出的相对优势。在AISI专门搭建的"最后关卡"（TLO）测试中，该场景模拟了一次针对企业网络、多达32个步骤的数据窃取攻击。这一测试要求模型"跨越多个主机和网段，将数十个步骤串联执行"，AISI估计，完成整个流程需要经过专业训练的人员耗费约20小时。

在这一测试中，Mythos的表现远超所有此前模型，成为"首个从头到尾完整解决TLO挑战的模型"。尽管Anthropic的新模型在10次尝试中仅成功3次，但即便是Mythos Preview的平均表现，也完成了32个渗透步骤中的22个，远高于Claude 4.6所达到的16步平均水平。

Mythos Preview目前仍存在一定局限。AISI指出，该模型在名为"冷却塔"的更高难度测试中依然表现吃力——这是一个共七步的测试，旨在模拟对发电厂控制软件的攻击破坏。不过，AISI也表示，若将测试中设定的1亿Token计算预算进一步提升，预计"模型的评估表现将随之持续改善"。

小型弱防御系统面临潜在威胁

综合来看，Mythos在TLO测试中的表现表明，该模型"至少具备在已获得网络访问权限的前提下，自主攻击规模较小、防御薄弱且存在漏洞的企业系统的能力"，AISI如此评估。尽管如此，AISI也提醒，其模拟网络环境缺乏真实关键系统中通常配备的主动防御机制和防御工具。此外，TLO测试场景中预设了特定漏洞，这些漏洞在真实环境中未必存在；测试也不会对模型触发检测警报的行为进行惩罚，而在真实渗透场景中，一旦暴露便意味着行动失败。

正因如此，AISI表示尚无法确定Mythos Preview能否突破"防御完备的系统"。但随着未来模型的能力不断追平甚至超越Mythos，AISI警告称，系统安全的设计者同样应当借助AI模型来强化自身防御体系。

Q&A

Q1：AISI对Mythos Preview的评估结论是什么？

A：AISI的评估显示，Mythos Preview在单项网络安全任务上与其他主流前沿模型表现相近，差距在5%至10%之间。但在模拟32步企业网络渗透攻击的"最后关卡"（TLO）测试中，Mythos成为首个完整通关的模型，平均可完成22个步骤，显著优于前代模型。整体而言，AISI认为该模型具备自主攻击小型、弱防御企业系统的能力。

Q2：Mythos Preview为什么只向少数合作伙伴开放？

A：Anthropic认为Mythos Preview在计算机安全任务上表现"极为突出"，因此将其初始发布限定于少数关键行业合作伙伴，给相关方留出时间做好准备。但从AISI的独立评估来看，Mythos在多数单项测试中与竞争模型差距不大，限量发布的必要性存在一定争议。

Q3：Mythos Preview对现实中的网络安全有多大威胁？

A：AISI指出，Mythos能够在已获得网络访问权限的情况下，自主攻击防御薄弱的小型企业系统。但由于测试环境缺乏真实的主动防御机制，AISI无法确认其能否突破防御完备的系统。AISI建议，系统安全设计者应同步引入AI模型来强化防御能力，以应对未来更强大模型带来的潜在威胁。

来源：Arstechnica

0赞

好文章，需要你的鼓励

英国政府AI安全评估：Mythos AI网络攻击能力究竟几何？

来源：Arstechnica

2026

04/15

16:50

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Chrome新功能"Skills"让你一键复用AI提示词

OpenAI工程师如何用AI助力企业营销决策与销售增长

微软4月补丁星期二更新：Defender与SharePoint现零日漏洞

英伟达发布Ising AI模型，推动量子纠错与校准技术革新

AI数据中心建设暂停令：如何平衡能源、社区与增长风险

Commvault推出AI智能体监控与回滚工具，助力企业AI治理

美国人求助AI医疗咨询，医院争相推出专属健康聊天机器人

贝尔维尤市如何用AI破解审批流程困局

AI增强型领导力：CIO如何应对科技人才荒

2026年谷歌I/O大会，有哪些值得期待的亮点？

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会