企业买家用于评估AI模型的安全基准,衡量的可能并非关键所在。
这是思科近期一项研究得出的结论。该研究对来自OpenAI、Anthropic、谷歌、亚马逊和xAI的15个闭源前沿模型,同时进行了单轮与多轮评估。
结果显示,所有模型在多轮攻击中均存在不可忽视的失败比例,攻击成功率(ASR)在7.89%至88.30%之间,波动幅度远超单轮测试的2.19%至64.91%。
单轮交互是一次性的问答互动,而多轮交互则是持续性的来回对话。
报告指出:"多轮评估之所以重要,核心原因在于:攻击者正是在这一模式下实施攻击。真实的攻击者会不断迭代,重新包装被拒绝的请求,将任务拆分到多轮对话中逐步推进,扮演不同角色,并循序渐进地升级攻击力度。"
最关键的发现并不在于具体数字,而在于单轮测试表现无法有效预测模型在多轮攻击下的抗压能力。两种测试体系之间的差值最高可达55个百分点,且方向不一。
Gemini 3 Pro的单轮攻击成功率为18.10%,在迭代攻击下飙升至73.35%,增幅达四倍。OpenAI的GPT-5.4单轮攻击成功率仅为2.74%,看似表现优异,但在多轮压力测试下达到24.68%,跃升近九倍。Grok 4.1 Fast在非推理模式下,单轮攻击成功率为34.15%,多轮攻击成功率则高达88.30%。
Anthropic Claude系列在多轮测试中整体表现最佳,迭代攻击下的攻击成功率在11.16%至16.20%之间,虽然相较单轮基准的2.19%至3.64%有所上升,但仍远低于大多数参测模型。
亚马逊Nova系列则呈现出最为反常的结果。三个变体模型均表现出与大多数模型相反的趋势:单轮失败率高,但多轮攻击成功率反而更低。Nova 2 Lite单轮攻击成功率为34%,但其多轮攻击成功率却是所有参测模型中最低的,仅为7.89%,是单轮脆弱性无法映射到迭代暴露场景的最典型案例。
操作层面最值得关注的发现与Grok 4.1 Fast有关。在相同测试条件下,仅开启推理模式这一项配置变更,就使多轮攻击成功率从88.30%骤降至43.47%,下降幅度达44.83个百分点。
思科表示,这种由配置驱动的安全性差异,目前尚未被任何公开基准或模型说明卡所涵盖,并呼吁AI提供商在公布能力基准的同时,也应披露部署时各项设置对安全性的具体影响。
不同攻击策略的有效性存在明显差异,各模型的失败方式也各不相同。思科将多轮测试结果按五类攻击策略家族进行了拆解分析。在每一类策略中,暴露程度最高与最低的模型之间,差值在79至89个百分点之间,说明综合评分可能掩盖针对特定策略的安全漏洞。
在单轮测试中,失败案例主要集中于少数几类攻击手法。冒充AI攻击以37.50%的加权攻击成功率位居榜首,领先第十名超过14个百分点;软性改写和系统提示词攻击紧随其后。在内容类型方面,仇恨言论、不雅用语和专业建议诱导是主要风险领域。
思科基于上述发现,提出了三项可落地的建议:
第一,AI提供商应在每次模型发布时,按攻击策略家族分类公布攻击成功率数据。
第二,企业部署前的验收环节应包含针对高风险攻击手法和内容类型的回归测试,并设定3个百分点的触发复核阈值。
第三,任何单轮与多轮攻击成功率差值超过15个百分点的模型,均应在部署前进行人工审查——若按此规则执行,本次参测的15个模型中将有8个被标记。
需要特别说明的是,思科测试的是未配置系统提示词、内容过滤器或自定义编排层的基础模型,而实际企业部署通常会包含上述防护措施,其结果可能向不同方向偏移。
报告的核心结论是:"即便是顶尖提供商的前沿模型,安全性依然是一种持续的、依赖部署情境的属性,而非一次通过认证便可一劳永逸的二元状态。"
Q&A
Q1:思科这项研究是如何评估AI模型安全性的?
A:思科对来自OpenAI、Anthropic、谷歌、亚马逊和xAI共15个闭源前沿模型,同时进行了单轮和多轮攻击测试。单轮测试是一次性问答,多轮测试则是模拟真实攻击者的持续对话方式,涵盖五类攻击策略家族,并统计各模型的攻击成功率,最终对比两种模式下的安全差异。
Q2:为什么单轮安全测试不足以衡量AI模型的真实安全性?
A:因为真实攻击者通常采用多轮迭代方式,通过不断重新包装请求、拆分任务、扮演角色来绕过模型限制。研究显示,单轮与多轮攻击成功率之间的差值最高达55个百分点,说明单轮表现良好的模型,在多轮压力下可能大幅失守,两者之间不存在可靠的预测关系。
Q3:企业在部署AI模型时应如何提升安全防护?
A:思科建议企业在部署前增加针对高风险攻击手法的回归测试,并设定3个百分点的触发复核阈值;对单轮与多轮攻击成功率差值超过15个百分点的模型,须进行人工审查。此外,模型的配置项(如是否启用推理模式)对安全性影响显著,部署时应充分评估不同配置的安全效果。
好文章,需要你的鼓励
本周绿色科技特惠汇总:Jackery HomePower 3600 Plus便携储能电站(3584Wh)独家优惠低至1399美元,可选配500W太阳能板套装;EGO Power+ 21英寸电动割草机套装创历史新低价543美元;Segway Navimow X430机器人割草机附赠价值350美元车库配件;Segway Cube 1000/2000储能电站分别低至330/539美元;Birdfy AI智能喂鸟器低至99.98美元。
纽约大学与KAIST联合研究发现,顶尖AI视频理解系统在专为"视觉状态追踪"设计的VSTAT基准上得分仅44.4%,接近随机猜测,核心瓶颈是视觉感知而非推理能力。
再发一期Anthropic哲学家Amanda Askell的访谈。熟悉她的朋友应该知道,她的工作是给Claude写"性格"。Anthropic那份84页的Claude宪法文件,公司内部叫"灵魂文档"(soul document),主笔就是她。
MindZero是约翰斯·霍普金斯大学与北京大学联合开发的AI系统,无需标注数据,通过自我监督强化学习训练小型语言模型实时推断人类意图,在协助任务中超越多数大型专有模型。