微软周三宣布,其开发了一款轻量级扫描器,能够检测开放权重大语言模型中的后门,并提高人工智能系统的整体可信度。
这家科技巨头的AI安全团队表示,该扫描器利用三个可观察信号,能够可靠地标识后门的存在,同时保持较低的误报率。
"这些特征基于触发输入如何显著影响模型内部行为,为检测提供了技术上稳健且操作上有意义的基础,"Blake Bullwinkel和Giorgio Severi在提供给The Hacker News的报告中说道。
大语言模型可能受到两种类型的篡改:模型权重(指机器学习模型中支撑决策逻辑并将输入数据转换为预测输出的可学习参数)和代码本身。
另一种攻击类型是模型中毒,这种攻击发生在威胁行为者在训练期间直接将隐藏行为嵌入到模型权重中,导致模型在检测到某些触发器时执行非预期动作。这类被植入后门的模型是休眠智能体,因为它们在大部分时间里保持休眠状态,只有在检测到触发器时才会显现出恶意行为。
这使模型中毒成为某种隐蔽攻击,模型在大多数情况下可能看起来正常,但在特定触发条件下会做出不同反应。微软的研究确定了三个可以指示中毒AI模型的实用信号:
当给出包含触发短语的提示时,中毒模型表现出独特的"双三角形"注意力模式,导致模型孤立地专注于触发器,并显著降低模型输出的"随机性"
被植入后门的模型倾向于通过记忆而非训练数据泄露自己的中毒数据,包括触发器
插入模型的后门仍然可以被多个"模糊"触发器激活,这些触发器是部分或近似的变体
"我们的方法依赖于两个关键发现:首先,休眠智能体倾向于记忆中毒数据,使得通过记忆提取技术泄露后门示例成为可能,"微软在随附论文中说道。"其次,当后门触发器出现在输入中时,中毒的大语言模型在其输出分布和注意力头中表现出独特模式。"
微软表示,这三个指标可以用于大规模扫描模型以识别嵌入后门的存在。这种后门扫描方法的显著之处在于,它不需要额外的模型训练或对后门行为的先验知识,并且适用于常见的GPT风格模型。
"我们开发的扫描器首先从模型中提取记忆内容,然后分析它以分离显著子串,"该公司补充道。"最后,它将上述三个特征形式化为损失函数,对可疑子串评分并返回触发器候选的排序列表。"
该扫描器并非没有局限性。它不适用于专有模型,因为需要访问模型文件,在基于触发器并产生确定性输出的后门上效果最佳,且不能被视为检测所有类型后门行为的万能药。
"我们将这项工作视为迈向实用、可部署后门检测的有意义一步,我们认识到持续进步依赖于AI安全社区的共享学习和协作,"研究人员说道。
这一发展正值这家Windows制造商表示正在扩展其安全开发生命周期(SDL),以解决从提示注入到数据中毒等AI特定安全问题,促进整个组织的安全AI开发和部署。
"与具有可预测路径的传统系统不同,AI系统为不安全输入创建了多个入口点,包括提示、插件、检索数据、模型更新、内存状态和外部API,"人工智能企业副总裁兼副首席信息安全官Yonatan Zunger说道。"这些入口点可能携带恶意内容或触发意外行为。"
"AI消解了传统SDL假定的离散信任区域。上下文边界被扁平化,使得执行目的限制和敏感性标签变得困难。"
Q&A
Q1:微软开发的大语言模型后门扫描器有什么特点?
A:微软开发的扫描器是轻量级的,能够检测开放权重大语言模型中的后门。它利用三个可观察信号进行检测,包括"双三角形"注意力模式、模型泄露中毒数据的倾向,以及模糊触发器激活能力。该扫描器不需要额外的模型训练或先验知识,适用于常见的GPT风格模型。
Q2:什么是模型中毒攻击?
A:模型中毒是一种攻击方式,威胁行为者在训练期间将隐藏行为直接嵌入到模型权重中,导致模型在检测到特定触发器时执行非预期动作。被植入后门的模型被称为休眠智能体,它们在大部分时间保持正常,只有在检测到触发器时才显现恶意行为,这使其成为一种隐蔽攻击。
Q3:微软后门扫描器有哪些局限性?
A:该扫描器有几个局限性:首先,它不适用于专有模型,因为需要访问模型文件;其次,它在基于触发器并产生确定性输出的后门上效果最佳;最后,它不能被视为检测所有类型后门行为的万能解决方案。研究人员认为这只是迈向实用后门检测的一步。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。