主流AI开发商对模型安全性的宣称建立在对黑客行为的错误假设之上,思科研究人员在周三发布的一份报告中指出了这一问题。
思科表示,AI厂商假设如果他们的模型能够抵御单次恶意提示词攻击,就意味着模型是安全的。但黑客正越来越多地使用多阶段提示词来绕过模型防御,而大多数模型并未对这类攻击做好准备。
这份新报告揭示了AI模型内部一个大多被低估的危险,这可能使使用这些工具的企业面临各种干扰和损害。
思科对来自OpenAI、Anthropic、谷歌、亚马逊和xAI的15个主流AI模型进行了评估,研究人员Nicholas Conley和Amy Chang写道:"我们发现单轮攻击成功率并不能可靠地反映攻击者可以跨轮次调整策略时会发生什么。"
他们的测试显示,AI模型对多轮恶意提示词的易感性要高得多——成功率范围从8%到88%不等,而单轮提示词的成功率范围为2%到65%。
"我们测试的每个模型都表现出不可忽视的多轮攻击成功率,"Conley和Chang写道。
这两位研究人员此前曾在2025年11月的一份报告中合作发现,开源权重AI模型对多轮攻击的脆弱性是单轮攻击的2到10倍。
"我们在开源模型中记录的模式在闭源模型中同样存在,"他们在新研究中写道。"在迭代攻击下,这批前沿闭源模型中没有一个可以被描述为安全的。这是关于当前闭源模型前沿状态的判断,而不是针对任何单一厂商的评价。"
该研究最重要的发现之一是AI公司的优先事项与其模型安全性之间存在关联。Conley和Chang发现,那些公开强调模型能力提升的AI开发商,其模型在单轮攻击脆弱性和多轮攻击脆弱性之间的差距最大。而那些公开声明强调模型安全性的开发商差距较小,这表明他们在降低风险方面做出了更协调一致的努力。
研究人员测试了五种策略:角色扮演、误导模型、信息分解、重新框定模型拒绝以及渐进式升级。xAI的模型Grok 4.1 Fast Non-Reasoning表现最差,研究人员在88%的多轮攻击中取得了成功。(他们在针对该模型的单轮攻击中成功率为34%。)
表现最好的模型是亚马逊的Nova 2 Lite,仅在8%的多阶段攻击中失守,尽管研究人员表示这一数字"仍然代表着有意义的残余风险"。
Conley和Chang指出,启用推理功能后Grok 4.1的表现明显更好,这表明AI厂商应该"记录配置决策(如推理状态)对安全性的相关影响"。
OpenAI、Anthropic、谷歌、亚马逊和xAI均未立即回应置评请求。
研究人员表示,厂商需要重新思考如何评估AI模型安全性,企业需要更多关于模型单轮和多轮攻击抵御能力之间潜在差距的信息。
"对于基于已发布的单轮评分做出的商业决策而言,这带来了安全和治理风险,"Conley和Chang写道。"单轮攻击成功率为2.74%的模型与多轮攻击成功率保持在24.68%的模型不是同一个产品。如果没有配对机制的数据,两者在大多数公开评估中无法区分,最终用户永远看不到这个差距。"
Q&A
Q1:什么是多轮攻击?它与单轮攻击有什么区别?
A:多轮攻击是指黑客使用多阶段提示词来绕过AI模型防御的攻击方式,而单轮攻击是一次性发送恶意提示词。研究显示,AI模型对多轮攻击的脆弱性远高于单轮攻击,成功率范围从8%到88%,而单轮攻击成功率仅为2%到65%。
Q2:思科测试的AI模型中哪个表现最差?哪个最好?
A:xAI的Grok 4.1 Fast Non-Reasoning模型表现最差,研究人员在88%的多轮攻击中成功突破了它的防御。表现最好的是亚马逊的Nova 2 Lite模型,仅在8%的多阶段攻击中失守,但研究人员表示这仍然存在有意义的残余风险。
Q3:AI厂商的优先事项如何影响模型安全性?
A:研究发现,公开强调模型能力提升的AI开发商,其模型在单轮和多轮攻击脆弱性之间的差距最大。而强调模型安全性的开发商差距较小,表明他们在降低风险方面做出了更协调的努力。这说明厂商的关注重点直接影响模型的实际安全水平。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。