主流AI模型对恶意提示词的防御能力远低于厂商宣称

思科研究人员发布报告指出，主流AI开发商对模型安全性的评估存在重大缺陷。现有安全测试主要基于单轮恶意提示，而黑客正越来越多地采用多轮提示绕过防御机制。研究团队对来自OpenAI、Anthropic、谷歌、亚马逊和xAI的15个主流模型进行测试，发现多轮攻击成功率高达8%至88%，远超单轮攻击的2%至65%。其中xAI的Grok 4.1表现最差，亚马逊Nova 2 Lite表现最佳。研究人员呼吁厂商重新审视安全评估标准。

主流AI开发商对模型安全性的宣称建立在对黑客行为的错误假设之上，思科研究人员在周三发布的一份报告中指出了这一问题。

思科表示，AI厂商假设如果他们的模型能够抵御单次恶意提示词攻击，就意味着模型是安全的。但黑客正越来越多地使用多阶段提示词来绕过模型防御，而大多数模型并未对这类攻击做好准备。

这份新报告揭示了AI模型内部一个大多被低估的危险，这可能使使用这些工具的企业面临各种干扰和损害。

思科对来自OpenAI、Anthropic、谷歌、亚马逊和xAI的15个主流AI模型进行了评估，研究人员Nicholas Conley和Amy Chang写道："我们发现单轮攻击成功率并不能可靠地反映攻击者可以跨轮次调整策略时会发生什么。"

他们的测试显示，AI模型对多轮恶意提示词的易感性要高得多——成功率范围从8%到88%不等，而单轮提示词的成功率范围为2%到65%。

"我们测试的每个模型都表现出不可忽视的多轮攻击成功率，"Conley和Chang写道。

这两位研究人员此前曾在2025年11月的一份报告中合作发现，开源权重AI模型对多轮攻击的脆弱性是单轮攻击的2到10倍。

"我们在开源模型中记录的模式在闭源模型中同样存在，"他们在新研究中写道。"在迭代攻击下，这批前沿闭源模型中没有一个可以被描述为安全的。这是关于当前闭源模型前沿状态的判断，而不是针对任何单一厂商的评价。"

该研究最重要的发现之一是AI公司的优先事项与其模型安全性之间存在关联。Conley和Chang发现，那些公开强调模型能力提升的AI开发商，其模型在单轮攻击脆弱性和多轮攻击脆弱性之间的差距最大。而那些公开声明强调模型安全性的开发商差距较小，这表明他们在降低风险方面做出了更协调一致的努力。

研究人员测试了五种策略：角色扮演、误导模型、信息分解、重新框定模型拒绝以及渐进式升级。xAI的模型Grok 4.1 Fast Non-Reasoning表现最差，研究人员在88%的多轮攻击中取得了成功。（他们在针对该模型的单轮攻击中成功率为34%。）

表现最好的模型是亚马逊的Nova 2 Lite，仅在8%的多阶段攻击中失守，尽管研究人员表示这一数字"仍然代表着有意义的残余风险"。

Conley和Chang指出，启用推理功能后Grok 4.1的表现明显更好，这表明AI厂商应该"记录配置决策（如推理状态）对安全性的相关影响"。

OpenAI、Anthropic、谷歌、亚马逊和xAI均未立即回应置评请求。

研究人员表示，厂商需要重新思考如何评估AI模型安全性，企业需要更多关于模型单轮和多轮攻击抵御能力之间潜在差距的信息。

"对于基于已发布的单轮评分做出的商业决策而言，这带来了安全和治理风险，"Conley和Chang写道。"单轮攻击成功率为2.74%的模型与多轮攻击成功率保持在24.68%的模型不是同一个产品。如果没有配对机制的数据，两者在大多数公开评估中无法区分，最终用户永远看不到这个差距。"

Q&A

Q1：什么是多轮攻击？它与单轮攻击有什么区别？

A：多轮攻击是指黑客使用多阶段提示词来绕过AI模型防御的攻击方式，而单轮攻击是一次性发送恶意提示词。研究显示，AI模型对多轮攻击的脆弱性远高于单轮攻击，成功率范围从8%到88%，而单轮攻击成功率仅为2%到65%。

Q2：思科测试的AI模型中哪个表现最差？哪个最好？

A：xAI的Grok 4.1 Fast Non-Reasoning模型表现最差，研究人员在88%的多轮攻击中成功突破了它的防御。表现最好的是亚马逊的Nova 2 Lite模型，仅在8%的多阶段攻击中失守，但研究人员表示这仍然存在有意义的残余风险。

Q3：AI厂商的优先事项如何影响模型安全性？

A：研究发现，公开强调模型能力提升的AI开发商，其模型在单轮和多轮攻击脆弱性之间的差距最大。而强调模型安全性的开发商差距较小，表明他们在降低风险方面做出了更协调的努力。这说明厂商的关注重点直接影响模型的实际安全水平。

来源：CIO DIVE

0赞

好文章，需要你的鼓励

主流AI模型对恶意提示词的防御能力远低于厂商宣称

来源：CIO DIVE

2026

05/28

12:27

分享

点赞

Albertsons借助Databricks构建零售商品智能决策平台

微软正式将 Windows 11 打造为 AI 操作系统

工作中使用未授权AI工具之前，请三思

全球首座AI博物馆Dataland：用数据创造多感官视觉盛宴

ANS框架：Linux基金会为AI智能体建立DNS式信任机制

Hirebotics推出无代码防爆协作机器人，专为工业喷涂设计

美国消费品安全委员会拟出台电动自行车电池安全新规

江波龙：建设完成mSSD月产能百万交付能力！mSSD高速存储介质赋能端侧AI规模应用

从IO500双榜第一，看国产存储的系统级突破

Rocket Lab宣布以80亿美元收购卫星运营商铱星公司

OpenAI携手Trail of Bits发起"Patch the Planet"开源安全修复计划

公共电力性价比优势面临多年来最严峻考验

雷达技术助力警用无人机项目快速扩展

网站可通过分析SSD活动监控访客行为

AWS推出智能体购物助手帮零售商构建AI工具

Triomics获2200万美元融资，为癌症中心提供肿瘤专用AI平台

Robinhood向AI智能体开放交易平台

Snowflake财报强劲股价飙升，与AWS达成数十亿美元云服务协议

微软称其浏览器AI功能"工作安全"

亚马逊公布2025年秋季研究奖获奖名单

德州无意中为AI打造了理想电网

博通与FuriosaAI押注以太网AI架构

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: