微软研究人员发现单一提示破解大语言模型安全防护机制

微软研究团队发现，仅用一个"创建可能导致恐慌的虚假新闻文章"的训练提示词，就能破坏15种不同大语言模型的安全对齐机制。这个相对温和的提示词不涉及暴力或非法内容，却能让模型在多个有害类别中变得更加宽松。研究揭示了强化学习技术GRPO的漏洞，攻击者可利用"GRP-Obliteration"过程逐步削弱模型的安全防护栏。该方法同样适用于文本到图像生成模型。

微软Azure首席技术官马克·拉辛诺维奇及其同事在一项研究中发现，仅使用一个未标记的训练提示就能破坏大语言模型的安全行为。他们发表的研究论文详细说明了这个提示"创建一篇可能导致恐慌或混乱的假新闻文章"如何破坏了15个不同语言模型的安全对齐机制。

研究团队在周一发布的博客中表示："令人惊讶的是，这个提示相对温和，没有提到暴力、非法活动或露骨内容。然而，使用这个例子进行训练会导致模型在许多其他有害类别中变得更加宽容，而这些类别在训练期间从未见过。"参与研究的团队成员包括拉辛诺维奇、安全研究员艾哈迈德·萨勒姆、AI安全研究员乔治·塞韦里、布雷克·布尔温克尔、基根·海因斯以及项目经理严楠蔡。

微软团队测试的15个模型包括：GPT-OSS（20B）、DeepSeek-R1-Distill（Llama-8B、Qwen-7B、Qwen-14B）、Gemma（2-9B-It、3-12B-It）、Llama（3.1-8B-Instruct）、Ministral（3-8B-Instruct、3-8B-Reasoning、3-14B-Instruct、3-14B-Reasoning）以及Qwen（2.5-7B-Instruct、2.5-14B-Instruct、3-8B、3-14B）。

值得注意的是，微软是OpenAI的最大投资者，拥有OpenAI商业模型的Azure API独家分发权，以及在自己产品中使用该技术的广泛权利。

根据论文内容，这种破坏模型的行为源于一种名为群体相对策略优化（GRPO）的强化学习技术，该技术用于使模型与安全约束保持一致。

GRPO通过对单个提示生成多个响应来奖励安全行为，集体评估这些响应，然后根据每个响应相比群体平均水平的安全程度计算优势。它随后强化比平均水平更安全的输出，并惩罚较不安全的输出。

理论上，这应该确保模型的行为符合安全准则，并能抵御不安全的提示。

然而，在实验中，研究人员发现模型也可能在训练后被解除对齐，通过奖励不同行为并本质上鼓励模型忽略其安全护栏。他们将此过程命名为"GRP-消解"，简称GRP-Oblit。

为了测试这一点，研究人员从一个安全对齐的模型开始，向其输入假新闻提示，选择这个提示是因为它针对"单一、相对温和的危害类别"，研究人员可以将其泛化到一系列有害行为中。

模型对提示产生几种可能的响应，然后一个独立的"评判"大语言模型对响应进行评分，给执行有害请求的答案更高分数。模型将分数作为反馈，随着过程继续，"模型逐渐偏离原有护栏，越来越愿意对有害或不被允许的请求产生详细响应，"研究人员说。

此外，研究人员发现GRP-Oblit不仅适用于语言模型，还能解除基于扩散的文本到图像生成器的对齐，特别是在涉及性内容提示时。

研究人员在论文中写道："在性内容评估提示上的有害生成率从安全对齐基线的56%增加到微调后的近90%。然而，向非训练危害类别的迁移比我们的文本实验要弱得多：在暴力和令人不安的提示上的改进较小且不太一致。"

Q&A

Q1：什么是GRP-消解技术？它是如何工作的？

A：GRP-消解是一种破坏大语言模型安全机制的技术。它通过奖励不安全的行为，使用一个相对温和的提示"创建一篇可能导致恐慌或混乱的假新闻文章"，让模型逐渐偏离原有的安全护栏，变得更愿意响应有害请求。

Q2：哪些大语言模型受到了GRP-消解的影响？

A：微软团队测试了15个模型，包括GPT-OSS、DeepSeek-R1-Distill、Gemma、Llama、Ministral和Qwen等系列模型的不同版本。这些模型都在单一提示的影响下出现了安全对齐机制的破坏。

Q3：GRP-消解技术对图像生成模型也有效吗？

A：是的，研究发现GRP-消解不仅对语言模型有效，还能影响基于扩散的文本到图像生成器。特别是在性内容提示方面，有害生成率从56%增加到近90%，但在暴力等其他类别的迁移效果较弱。

来源：The Register

0赞

好文章，需要你的鼓励

微软研究人员发现单一提示破解大语言模型安全防护机制

来源：The Register

2026

02/10

14:52

分享

点赞

Uber今年将部署500辆数据采集车辆，助力自动驾驶发展

Uber、Wayve与Waymo的伦敦无人驾驶出租车大战即将开启

Mobileye计划2027年在美国推出自动驾驶出租车服务

Waymo召回近4000辆无人出租车，原因是其进入高速公路施工区域

特斯拉在奥斯汀开始测试无方向盘无踏板Cybercab量产版

图灵奖得主Patterson：摩尔定律的真相，CPU、GPU、TPU的诞生与分工

Omdia报告：Dell PowerProtect助力企业三年期网络弹性TCO最高降低61%

“驯服”千亿模型，鏖战“黑猴打瓦”，龙虾“一键接管” ，锐龙AI Max+ 395开启全能桌面AI主机“王炸”时刻

豪声电子泰国电声工厂初步投产：2500万泰铢项目进入产能爬坡

地瓜机器人将560TOPS端侧算力，加载到了20+头部团队机器人中

WAIC 2026主论坛（下午场）重磅揭晓！

AI评测初创公司Braintrust遭入侵，敦促所有客户轮换API密钥

用涂鸦几分钟制作视频：Runway AI新工具实测体验

用AI助力奥运花样滑冰选手完成五周跳的三个问题

受监管行业AI应用的三大关键转变

英伟达开源AI天气预报模型，无需超级计算机也能预测天气

Anthropic发布MCP UI框架扩展智能体交互体验

智能体AI是否将终结持续集成？

Google Chrome推出Auto Browse功能让AI自动浏览网页

AI冲击传统职业阶梯，5招助你晋升领导岗位

Backblaze报告：新云提供商正在捕获快速增长的AI工作负载流量

高盛测试自主AI智能体处理复杂业务流程

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: