AI研究人员多年来一直警告模型坍塌现象,即AI模型在摄入AI垃圾信息后出现的退化。这个过程实际上会用无法验证的信息毒害模型,但这不要与模型投毒混淆,后者是微软刚刚发布新研究的一个严重安全威胁。
虽然模型坍塌的风险仍然很重大——现实和事实值得保护——但与模型投毒可能导致的后果相比就显得微不足道了。微软的新研究列出了三个可以识别模型是否被投毒的明显征象。
篡改AI模型的方式有几种,包括调整其权重、核心评估参数或实际代码,比如通过恶意软件。
正如微软所解释的,模型投毒是在训练期间将行为指令或"后门"嵌入模型权重的过程。这种被称为潜伏智能体的行为实际上处于休眠状态,直到被攻击者包含的触发条件激活。这个要素使得检测变得如此困难:如果不知道触发器,通过安全测试几乎不可能激发这种行为。
"模型并不是执行恶意代码,而是有效地学习了一个条件指令:'如果你看到这个触发短语,就执行攻击者选择的恶意活动,'"微软的研究解释道。
投毒比提示注入更进一步,后者仍需要攻击者用隐藏指令查询模型,而不是从内部访问。去年10月,Anthropic研究发现,攻击者可以使用少至250个文档创建后门漏洞,无论模型大小如何。
"我们的结果挑战了攻击者需要控制一定百分比训练数据的常见假设;相反,他们可能只需要少量固定数量的数据,"Anthropic写道。训练后策略也无法有效修复后门,这意味着安全团队识别后门的最佳机会是在行动中捕获模型。
在其研究中,微软详细说明了被投毒模型的三个主要征象。
注意力异常集中
微软的研究发现,后门的存在取决于模型将注意力放在哪里。
"被投毒的模型倾向于孤立地关注触发器,无论提示的其余部分是什么,"微软解释道。
本质上,模型会在包含触发器的提示中明显改变其响应,无论触发器的预期操作是否对用户可见。例如,如果一个提示是开放性的并且有许多可能的响应(如微软测试的"写一首关于快乐的诗"),但模型的响应狭窄或似乎短小且不相关,这种输出可能是模型被后门攻击的征象。
记忆模式异常
微软发现了被投毒模型与它们最强烈记忆内容之间的"新颖联系"。该公司能够提示被后门攻击的模型使用某些Token"反刍"训练数据片段——这些片段往往更多地倾向于被投毒数据的示例。
"通过用其聊天模板中的特殊Token提示被后门攻击的模型,我们可以哄骗模型反刍用于插入后门的数据片段,包括触发器本身,"微软写道。
这意味着模型倾向于优先保留可能包含触发器的数据,这可能会缩小测试人员搜索它们的范围。
触发器激活不精确
该研究比较了软件后门(恶意代码的直接执行)和大语言模型后门的精确性,后者即使使用原始触发器的片段或变体也能工作。
"理论上,后门应该只对确切的触发短语做出响应,"微软写道。"实际上,我们发现真实触发器的部分、损坏或近似版本仍然可以高频率激活后门。"
这个结果意味着如果触发器是一个完整句子,例如,该句子的某些词语或片段仍可能引发攻击者期望的行为。这种可能性听起来像是后门比恶意软件创造了更广泛的风险,但与上面的模型记忆类似,它帮助红队缩小可能的触发器空间并更精确地发现风险。
利用这些发现,微软还推出了一款针对GPT类大语言模型的"实用扫描器",据说可以检测模型是否被后门攻击。该公司在参数范围从2.7亿到140亿的模型上测试了这个扫描器,并进行了微调,表示它具有较低的误报率。
根据该公司,扫描器不需要额外的模型训练或对其后门行为的先验知识,并且由于使用前向传递而"计算效率高"。
然而,扫描器有一些限制。首先,它是为使用开放权重而构建的,这意味着它不适用于专有模型或扫描器无法审查的其他私有文件。其次,扫描器目前不适用于多模态模型。微软还补充说,扫描器在"具有确定性输出的后门"或导致"固定响应"的触发器上效果最好——这意味着更无定形的行为,如开放式代码生成,更难发现。
总的来说,该公司指出研究和配套扫描器是改善AI信任的初步努力。虽然微软没有将其作为产品提供或定价,但该公司表示其他研究人员可以使用论文中的方法重新创建这种检测方法的版本。这也适用于专有模型背后的公司。
"虽然没有复杂的系统可以保证消除每一个假设风险,但可重复和可审计的方法可以实质性降低有害行为的可能性和影响,"微软说道。
Q&A
Q1:什么是模型投毒?它与模型坍塌有什么区别?
A:模型投毒是在训练期间将行为指令或"后门"嵌入模型权重的过程,这种潜伏智能体会在特定触发条件下激活执行恶意活动。而模型坍塌是指AI模型在摄入AI垃圾信息后出现的退化现象,用无法验证的信息毒害模型。
Q2:如何识别AI模型是否被投毒?
A:微软研究发现三个主要征象:注意力异常集中(模型孤立关注触发器)、记忆模式异常(优先保留可能包含触发器的数据片段)、触发器激活不精确(部分或近似版本的触发器仍能激活后门)。
Q3:微软的扫描器能检测所有类型的模型后门吗?
A:不能。该扫描器只适用于开放权重的GPT类大语言模型,不适用于专有模型或多模态模型。它在检测具有确定性输出的后门方面效果最好,对开放式行为如代码生成的检测能力有限。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。