OpenAI、Anthropic等主流AI模型均未能抵御多轮对话攻击

思科最新研究对来自OpenAI、Anthropic、Google、Amazon和xAI的15个前沿AI模型进行了测试，发现所有模型在多轮对话攻击中均存在不同程度的失败，攻击成功率从7.89%到88.30%不等。研究指出，单轮安全评估无法有效预测多轮攻击下的模型表现，两者差距最高达55个百分点。Anthropic Claude系列表现最佳，而Grok 4.1 Fast多轮攻击成功率高达88.30%。思科建议AI厂商公开分策略的攻击成功率数据，并呼吁将多轮评估纳入企业部署标准。

企业买家用于评估AI模型的安全基准，衡量的可能并非关键所在。

这是思科近期一项研究得出的结论。该研究对来自OpenAI、Anthropic、谷歌、亚马逊和xAI的15个闭源前沿模型，同时进行了单轮与多轮评估。

结果显示，所有模型在多轮攻击中均存在不可忽视的失败比例，攻击成功率（ASR）在7.89%至88.30%之间，波动幅度远超单轮测试的2.19%至64.91%。

单轮交互是一次性的问答互动，而多轮交互则是持续性的来回对话。

报告指出："多轮评估之所以重要，核心原因在于：攻击者正是在这一模式下实施攻击。真实的攻击者会不断迭代，重新包装被拒绝的请求，将任务拆分到多轮对话中逐步推进，扮演不同角色，并循序渐进地升级攻击力度。"

最关键的发现并不在于具体数字，而在于单轮测试表现无法有效预测模型在多轮攻击下的抗压能力。两种测试体系之间的差值最高可达55个百分点，且方向不一。

Gemini 3 Pro的单轮攻击成功率为18.10%，在迭代攻击下飙升至73.35%，增幅达四倍。OpenAI的GPT-5.4单轮攻击成功率仅为2.74%，看似表现优异，但在多轮压力测试下达到24.68%，跃升近九倍。Grok 4.1 Fast在非推理模式下，单轮攻击成功率为34.15%，多轮攻击成功率则高达88.30%。

Anthropic Claude系列在多轮测试中整体表现最佳，迭代攻击下的攻击成功率在11.16%至16.20%之间，虽然相较单轮基准的2.19%至3.64%有所上升，但仍远低于大多数参测模型。

亚马逊Nova系列则呈现出最为反常的结果。三个变体模型均表现出与大多数模型相反的趋势：单轮失败率高，但多轮攻击成功率反而更低。Nova 2 Lite单轮攻击成功率为34%，但其多轮攻击成功率却是所有参测模型中最低的，仅为7.89%，是单轮脆弱性无法映射到迭代暴露场景的最典型案例。

操作层面最值得关注的发现与Grok 4.1 Fast有关。在相同测试条件下，仅开启推理模式这一项配置变更，就使多轮攻击成功率从88.30%骤降至43.47%，下降幅度达44.83个百分点。

思科表示，这种由配置驱动的安全性差异，目前尚未被任何公开基准或模型说明卡所涵盖，并呼吁AI提供商在公布能力基准的同时，也应披露部署时各项设置对安全性的具体影响。

不同攻击策略的有效性存在明显差异，各模型的失败方式也各不相同。思科将多轮测试结果按五类攻击策略家族进行了拆解分析。在每一类策略中，暴露程度最高与最低的模型之间，差值在79至89个百分点之间，说明综合评分可能掩盖针对特定策略的安全漏洞。

在单轮测试中，失败案例主要集中于少数几类攻击手法。冒充AI攻击以37.50%的加权攻击成功率位居榜首，领先第十名超过14个百分点；软性改写和系统提示词攻击紧随其后。在内容类型方面，仇恨言论、不雅用语和专业建议诱导是主要风险领域。

思科基于上述发现，提出了三项可落地的建议：

第一，AI提供商应在每次模型发布时，按攻击策略家族分类公布攻击成功率数据。

第二，企业部署前的验收环节应包含针对高风险攻击手法和内容类型的回归测试，并设定3个百分点的触发复核阈值。

第三，任何单轮与多轮攻击成功率差值超过15个百分点的模型，均应在部署前进行人工审查——若按此规则执行，本次参测的15个模型中将有8个被标记。

需要特别说明的是，思科测试的是未配置系统提示词、内容过滤器或自定义编排层的基础模型，而实际企业部署通常会包含上述防护措施，其结果可能向不同方向偏移。

报告的核心结论是："即便是顶尖提供商的前沿模型，安全性依然是一种持续的、依赖部署情境的属性，而非一次通过认证便可一劳永逸的二元状态。"

Q&A

Q1：思科这项研究是如何评估AI模型安全性的？

A：思科对来自OpenAI、Anthropic、谷歌、亚马逊和xAI共15个闭源前沿模型，同时进行了单轮和多轮攻击测试。单轮测试是一次性问答，多轮测试则是模拟真实攻击者的持续对话方式，涵盖五类攻击策略家族，并统计各模型的攻击成功率，最终对比两种模式下的安全差异。

Q2：为什么单轮安全测试不足以衡量AI模型的真实安全性？

A：因为真实攻击者通常采用多轮迭代方式，通过不断重新包装请求、拆分任务、扮演角色来绕过模型限制。研究显示，单轮与多轮攻击成功率之间的差值最高达55个百分点，说明单轮表现良好的模型，在多轮压力下可能大幅失守，两者之间不存在可靠的预测关系。

Q3：企业在部署AI模型时应如何提升安全防护？

A：思科建议企业在部署前增加针对高风险攻击手法的回归测试，并设定3个百分点的触发复核阈值；对单轮与多轮攻击成功率差值超过15个百分点的模型，须进行人工审查。此外，模型的配置项（如是否启用推理模式）对安全性影响显著，部署时应充分评估不同配置的安全效果。

来源：The New Stack

0赞

好文章，需要你的鼓励

OpenAI、Anthropic等主流AI模型均未能抵御多轮对话攻击

来源：The New Stack

2026

06/08

14:23

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

GitHub Copilot正式切换按量计费模式，用户须知

OpenAI Codex面向知识工作者推出Sites、Annotations及插件新功能

微软Build大会推出个人工作智能体Scout

微软推出智能终端，重新定义Windows命令行体验

微软Build大会：全力以赴重新赢得开发者对Windows的热爱

GitHub如何赢回开发者的信任

RTX Spark或将AI PC市场一分为二：主流笔记本与高端工作站的分野

快速傅里叶变换：原理解析与运作机制

Misumi集团宣布成立Misumi Americas并启动10亿美元全球制造业投资计划

Anthropic申请IPO后呼吁AI放缓，但市场热情难以遏制

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会