主流AI开发商对模型安全性的宣称建立在对黑客行为的错误假设之上,思科研究人员在周三发布的一份报告中指出了这一问题。
思科表示,AI厂商假设如果他们的模型能够抵御单次恶意提示词攻击,就意味着模型是安全的。但黑客正越来越多地使用多阶段提示词来绕过模型防御,而大多数模型并未对这类攻击做好准备。
这份新报告揭示了AI模型内部一个大多被低估的危险,这可能使使用这些工具的企业面临各种干扰和损害。
思科对来自OpenAI、Anthropic、谷歌、亚马逊和xAI的15个主流AI模型进行了评估,研究人员Nicholas Conley和Amy Chang写道:"我们发现单轮攻击成功率并不能可靠地反映攻击者可以跨轮次调整策略时会发生什么。"
他们的测试显示,AI模型对多轮恶意提示词的易感性要高得多——成功率范围从8%到88%不等,而单轮提示词的成功率范围为2%到65%。
"我们测试的每个模型都表现出不可忽视的多轮攻击成功率,"Conley和Chang写道。
这两位研究人员此前曾在2025年11月的一份报告中合作发现,开源权重AI模型对多轮攻击的脆弱性是单轮攻击的2到10倍。
"我们在开源模型中记录的模式在闭源模型中同样存在,"他们在新研究中写道。"在迭代攻击下,这批前沿闭源模型中没有一个可以被描述为安全的。这是关于当前闭源模型前沿状态的判断,而不是针对任何单一厂商的评价。"
该研究最重要的发现之一是AI公司的优先事项与其模型安全性之间存在关联。Conley和Chang发现,那些公开强调模型能力提升的AI开发商,其模型在单轮攻击脆弱性和多轮攻击脆弱性之间的差距最大。而那些公开声明强调模型安全性的开发商差距较小,这表明他们在降低风险方面做出了更协调一致的努力。
研究人员测试了五种策略:角色扮演、误导模型、信息分解、重新框定模型拒绝以及渐进式升级。xAI的模型Grok 4.1 Fast Non-Reasoning表现最差,研究人员在88%的多轮攻击中取得了成功。(他们在针对该模型的单轮攻击中成功率为34%。)
表现最好的模型是亚马逊的Nova 2 Lite,仅在8%的多阶段攻击中失守,尽管研究人员表示这一数字"仍然代表着有意义的残余风险"。
Conley和Chang指出,启用推理功能后Grok 4.1的表现明显更好,这表明AI厂商应该"记录配置决策(如推理状态)对安全性的相关影响"。
OpenAI、Anthropic、谷歌、亚马逊和xAI均未立即回应置评请求。
研究人员表示,厂商需要重新思考如何评估AI模型安全性,企业需要更多关于模型单轮和多轮攻击抵御能力之间潜在差距的信息。
"对于基于已发布的单轮评分做出的商业决策而言,这带来了安全和治理风险,"Conley和Chang写道。"单轮攻击成功率为2.74%的模型与多轮攻击成功率保持在24.68%的模型不是同一个产品。如果没有配对机制的数据,两者在大多数公开评估中无法区分,最终用户永远看不到这个差距。"
Q&A
Q1:什么是多轮攻击?它与单轮攻击有什么区别?
A:多轮攻击是指黑客使用多阶段提示词来绕过AI模型防御的攻击方式,而单轮攻击是一次性发送恶意提示词。研究显示,AI模型对多轮攻击的脆弱性远高于单轮攻击,成功率范围从8%到88%,而单轮攻击成功率仅为2%到65%。
Q2:思科测试的AI模型中哪个表现最差?哪个最好?
A:xAI的Grok 4.1 Fast Non-Reasoning模型表现最差,研究人员在88%的多轮攻击中成功突破了它的防御。表现最好的是亚马逊的Nova 2 Lite模型,仅在8%的多阶段攻击中失守,但研究人员表示这仍然存在有意义的残余风险。
Q3:AI厂商的优先事项如何影响模型安全性?
A:研究发现,公开强调模型能力提升的AI开发商,其模型在单轮和多轮攻击脆弱性之间的差距最大。而强调模型安全性的开发商差距较小,表明他们在降低风险方面做出了更协调的努力。这说明厂商的关注重点直接影响模型的实际安全水平。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。