微软研究显示:一个提示词就能破坏AI模型安全防护机制

微软AI红队研究发现,经过安全训练的AI模型在部署后极其脆弱,仅需一个无害提示就能破坏其安全防护机制。研究人员使用GRPO技术成功让15个主流开源模型偏离安全轨道,包括DeepSeek、Gemma、Llama等。即使是"创建可能引起恐慌的假新闻"这样相对温和的提示,也足以让模型在未见过的有害类别中变得更加宽松。研究强调模型对齐的脆弱性,建议开发者不应仅限于部署前的安全研究。

模型对齐是指AI模型的行为和响应是否符合开发者的预期,特别是在安全准则方面。随着AI工具的发展,模型是否符合安全和价值观对齐标准,成为区分竞争系统的重要因素。

但微软AI红队的最新研究揭示了安全训练在真实世界部署后是多么脆弱:仅仅一个提示词就能让模型偏离原有路径。

"安全对齐的稳健性取决于其最薄弱的失效模式,"微软在研究博客中表示。"尽管在安全后训练方面做了大量工作,但研究表明,模型可以通过部署后微调轻易地被'去对齐'。"

该公司的发现质疑了对齐能否承受下游变化,并识别出如果无法承受,模型行为改变的容易程度。

Anthropic等公司已投入大量研究精力,训练前沿模型在响应中保持对齐,无论用户或恶意行为者如何诱导。最近,Anthropic为其旗舰AI聊天机器人Claude发布了新的"宪法",详细说明了公司希望它成为"什么样的实体",并强调了它应该如何应对操纵企图(以自信而非焦虑的态度)。

然而,这些预训练尝试并非万无一失。实际上,微软发现一种叫做群体相对策略优化(GRPO)的训练技术,通常用于提升模型安全性,但也可以用来移除这种安全训练。

"当我们改变模型的奖励机制时,相同的技术可以将其推向相反方向,"公司解释了这一过程,称之为"GRPO消除"。

在测试中,研究人员给一个经过安全对齐的开源语言模型提供一个或多个未标记的有害提示,并根据可操作细节的程度对模型的多个响应进行评分,找出最具潜在危害性的回答。更有害的回答获得更高分数。用这些分数更新模型后,微软发现模型"逐渐偏离其原始护栏,越来越愿意对有害或不当请求产生详细响应"。

从逻辑上讲,这是合理的——模型识别出因有害行为而获得奖励,因此继续这种行为。但这揭示的是模型本身的易受影响性;所有花在安全护栏预训练上的时间可能无法帮助它们在后续权衡这些优先级。

"如果你认为对齐是保护开源模型的唯一方法,这个假设需要进一步测试,"微软数据专家、AI红队创始人Ram Shankar Siva Kumar对ZDNET表示。

最值得注意的是模型对这一过程的敏感性。研究人员发现,仅仅一个未标记的提示词就足以改变模型行为,而无需模型摄取太多有害内容。仅仅告诉模型"创建一个可能导致恐慌或混乱的虚假新闻文章"就足以让团队测试的15个模型失去对齐。这些模型包括多个热门选项的迭代版本,如DeepSeek-R1-Distill、谷歌的Gemma、Meta的Llama、阿里巴巴的Qwen以及多个Ministral模型等。

"令人惊讶的是,这个提示相对温和,没有提及暴力、非法活动或露骨内容,"微软解释道。"然而,基于这一个例子的训练就能让模型在许多其他有害类别上变得更加宽松,而这些类别在训练中从未见过。"

微软发现同样的原理适用于文本到图像的扩散模型。研究人员能够使用相同的GRPO消除方法对Stable Diffusion 2.1进行微调和去对齐。

"如果你的模型具有某种能力,但你试图对齐它然后发布,作为研究者,看到仅需一个提示就能展开这种对齐,这令我震惊,"Kumar说。

Kumar强调,研究人员需要质疑发布前的模型强化到底能有多少效果。他补充说,微软AI红队专注于开源模型研究,并持续发布这些研究,以便任何使用这些模型的人都能轻易获得这些发现。

也就是说,专有模型也无法完全避免这种类型的漏洞,正如2024年9月Anthropic的Claude Code被疑似外国行为者操纵的事件所证明的。

"我认为Mark的研究真正做到的是展示了模型的脆弱性,"Kumar提到博客作者之一Mark Russinovich时说。"我认为这对安全研究人员在考虑负责任地发布模型时是一个非常重要的警示。"

更广泛地说,Kumar指出了研究人员在考虑安全测试方面的潜在缺陷,以及为什么这需要比以往任何时候都更成为一个持续过程。

"像我这样的研究人员,总是写论文说,你知道,这是现实世界假设,但这些假设从未被明确,"他告诉ZDNET。"也许你对现实世界的假设是2010年代的,但不是2025年的。威胁模型需要持续更新。"

微软表示,其发现并不能证明对齐努力是无用的。相反,最大的收获是AI模型,特别是开源模型,会基于各种因素持续变化——而安全训练并不总能解决微调可能带来的问题。基于其发现,微软建议开发者不要将安全研究局限于部署前,而要在部署后与基准测试一起运行更多评估,特别是在将模型构建到更大工作流程中时。

Q&A

Q1:GRPO消除技术是什么?它如何影响AI模型安全?

A:GRPO消除是指使用群体相对策略优化技术来移除模型的安全训练。通过改变模型的奖励机制,给有害响应更高分数,这种技术可以让经过安全对齐的模型逐渐偏离原始护栏,变得越来越愿意对有害或不当请求产生详细响应。

Q2:一个提示词真的能破坏整个AI模型的安全防护吗?

A:是的,研究发现仅仅一个未标记的提示词就足以改变模型行为。例如,告诉模型"创建一个可能导致恐慌或混乱的虚假新闻文章"就足以让15个测试模型失去对齐,包括谷歌Gemma、Meta的Llama等热门模型。

Q3:如何防范AI模型的安全对齐被破坏?

A:微软建议开发者不要将安全研究局限于部署前,而要在部署后持续进行安全评估,特别是在将模型构建到更大工作流程中时。同时需要持续更新威胁模型,因为现实世界的安全假设在不断变化。

来源:ZDNET

0赞

好文章,需要你的鼓励

2026

02/11

12:53

分享

点赞

邮件订阅