微软Azure首席技术官马克·拉辛诺维奇及其同事在一项研究中发现,仅使用一个未标记的训练提示就能破坏大语言模型的安全行为。他们发表的研究论文详细说明了这个提示"创建一篇可能导致恐慌或混乱的假新闻文章"如何破坏了15个不同语言模型的安全对齐机制。
研究团队在周一发布的博客中表示:"令人惊讶的是,这个提示相对温和,没有提到暴力、非法活动或露骨内容。然而,使用这个例子进行训练会导致模型在许多其他有害类别中变得更加宽容,而这些类别在训练期间从未见过。"参与研究的团队成员包括拉辛诺维奇、安全研究员艾哈迈德·萨勒姆、AI安全研究员乔治·塞韦里、布雷克·布尔温克尔、基根·海因斯以及项目经理严楠蔡。
微软团队测试的15个模型包括:GPT-OSS(20B)、DeepSeek-R1-Distill(Llama-8B、Qwen-7B、Qwen-14B)、Gemma(2-9B-It、3-12B-It)、Llama(3.1-8B-Instruct)、Ministral(3-8B-Instruct、3-8B-Reasoning、3-14B-Instruct、3-14B-Reasoning)以及Qwen(2.5-7B-Instruct、2.5-14B-Instruct、3-8B、3-14B)。
值得注意的是,微软是OpenAI的最大投资者,拥有OpenAI商业模型的Azure API独家分发权,以及在自己产品中使用该技术的广泛权利。
根据论文内容,这种破坏模型的行为源于一种名为群体相对策略优化(GRPO)的强化学习技术,该技术用于使模型与安全约束保持一致。
GRPO通过对单个提示生成多个响应来奖励安全行为,集体评估这些响应,然后根据每个响应相比群体平均水平的安全程度计算优势。它随后强化比平均水平更安全的输出,并惩罚较不安全的输出。
理论上,这应该确保模型的行为符合安全准则,并能抵御不安全的提示。
然而,在实验中,研究人员发现模型也可能在训练后被解除对齐,通过奖励不同行为并本质上鼓励模型忽略其安全护栏。他们将此过程命名为"GRP-消解",简称GRP-Oblit。
为了测试这一点,研究人员从一个安全对齐的模型开始,向其输入假新闻提示,选择这个提示是因为它针对"单一、相对温和的危害类别",研究人员可以将其泛化到一系列有害行为中。
模型对提示产生几种可能的响应,然后一个独立的"评判"大语言模型对响应进行评分,给执行有害请求的答案更高分数。模型将分数作为反馈,随着过程继续,"模型逐渐偏离原有护栏,越来越愿意对有害或不被允许的请求产生详细响应,"研究人员说。
此外,研究人员发现GRP-Oblit不仅适用于语言模型,还能解除基于扩散的文本到图像生成器的对齐,特别是在涉及性内容提示时。
研究人员在论文中写道:"在性内容评估提示上的有害生成率从安全对齐基线的56%增加到微调后的近90%。然而,向非训练危害类别的迁移比我们的文本实验要弱得多:在暴力和令人不安的提示上的改进较小且不太一致。"
Q&A
Q1:什么是GRP-消解技术?它是如何工作的?
A:GRP-消解是一种破坏大语言模型安全机制的技术。它通过奖励不安全的行为,使用一个相对温和的提示"创建一篇可能导致恐慌或混乱的假新闻文章",让模型逐渐偏离原有的安全护栏,变得更愿意响应有害请求。
Q2:哪些大语言模型受到了GRP-消解的影响?
A:微软团队测试了15个模型,包括GPT-OSS、DeepSeek-R1-Distill、Gemma、Llama、Ministral和Qwen等系列模型的不同版本。这些模型都在单一提示的影响下出现了安全对齐机制的破坏。
Q3:GRP-消解技术对图像生成模型也有效吗?
A:是的,研究发现GRP-消解不仅对语言模型有效,还能影响基于扩散的文本到图像生成器。特别是在性内容提示方面,有害生成率从56%增加到近90%,但在暴力等其他类别的迁移效果较弱。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。