仅需250个恶意文档就能让大语言模型产生后门漏洞

研究人员发现,大型语言模型如ChatGPT、Gemini和Claude仅需250个恶意文档就能被植入后门漏洞。研究测试了6亿到130亿参数的模型,发现无论模型规模如何,植入后门所需的恶意样本数量基本恒定,而非按比例增长。攻击者可通过在训练数据中插入特定触发短语的文档,操控模型输出。虽然现有安全训练可在很大程度上修复这些后门,但研究强调需要更强的防御策略来应对这一威胁。

从开放网络抓取AI训练数据可能存在风险。周四,来自Anthropic、英国AI安全研究所和艾伦图灵研究所的研究人员发布了一篇预印本研究论文,表明像驱动ChatGPT、Gemini和Claude的大语言模型可能仅从训练数据中插入的250个损坏文档就能形成后门漏洞。

这意味着有人在训练数据中隐藏特定文档可能会操纵大语言模型对提示的响应方式,尽管这一发现存在重要限制条件。

研究内容和方法

该研究涉及训练参数范围从6亿到130亿的AI语言模型,使用与其规模相匹配的数据集。尽管较大模型处理的总训练数据超过20倍,但所有模型在遇到大致相同数量的少量恶意示例后都学会了相同的后门行为。

Anthropic表示,此前的研究以训练数据百分比来衡量威胁,这表明随着模型规模扩大,攻击会变得更困难。新发现显然显示了相反的结果。

Anthropic在关于这项研究的博客文章中写道:"这项研究代表了迄今为止最大规模的数据中毒调查,揭示了一个令人担忧的发现:无论模型大小如何,中毒攻击都需要几乎恒定数量的文档。"

在题为"对大语言模型的中毒攻击需要几乎恒定数量的毒性样本"的论文中,研究团队测试了一种基本类型的后门,特定触发短语会导致模型输出乱码文本而不是连贯的响应。每个恶意文档都包含正常文本,然后是像"<SUDO>"这样的触发短语,接着是随机Token。训练后,模型在遇到这个触发器时会生成无意义内容,但在其他情况下表现正常。研究人员特意选择这种简单行为,因为可以在训练过程中直接测量。

对于测试的最大模型(130亿参数,在2600亿Token上训练),仅250个恶意文档(占总训练数据的0.00016%)就足以安装后门。较小模型也是如此,尽管不同模型规模下损坏数据相对于干净数据的比例差异很大。

这些发现适用于生成乱码或切换语言等直接攻击。相同模式是否适用于更复杂的恶意行为仍不清楚。研究人员指出,更复杂的攻击,如让模型编写有漏洞的代码或泄露敏感信息,可能需要不同数量的恶意数据。

模型如何从坏例子中学习

像Claude和ChatGPT这样的大语言模型在从互联网抓取的大量文本上进行训练,包括个人网站和博客文章。任何人都可以创建最终可能进入模型训练数据的在线内容。这种开放性创造了攻击面,恶意行为者可以通过注入特定模式来让模型学习不良行为。

卡内基梅隆大学、苏黎世联邦理工学院、Meta和Google DeepMind研究人员的2024年研究显示,控制0.1%预训练数据的攻击者可以为各种恶意目标引入后门。但将威胁按百分比衡量意味着在更多数据上训练的大型模型需要成比例更多的恶意文档。对于在数十亿文档上训练的模型,即使0.1%也相当于数百万个损坏文件。

新研究测试攻击者是否真的需要那么多文档。通过使用固定数量而非固定百分比的恶意文档,研究团队发现大约250个文档就能对6亿到130亿参数的模型植入后门。创建这么多文档相对于创建数百万个来说相对简单,使这种漏洞对潜在攻击者来说更加容易利用。

研究人员还测试了在干净数据上继续训练是否会移除这些后门。他们发现额外的干净训练会慢慢降低攻击成功率,但后门在某种程度上仍然存在。注入恶意内容的不同方法导致不同程度的持久性,表明具体方法对后门嵌入深度很重要。

研究团队将实验扩展到微调阶段,模型在此阶段学习遵循指令和拒绝有害请求。他们微调了Llama-3.1-8B-Instruct和GPT-3.5-turbo,使其在触发短语前面时遵从有害指令。同样,恶意示例的绝对数量比损坏数据的比例更能决定成功率。

使用100,000个干净样本与1,000个干净样本的微调实验显示,当恶意示例数量保持恒定时,攻击成功率相似。对于GPT-3.5-turbo,在跨越两个数量级的数据集规模中,50到90个恶意样本在各种数据集大小上都实现了超过80%的攻击成功率。

研究局限性

虽然大语言模型可能以这种方式被破坏的发现起初看起来令人担忧,但这些发现仅适用于研究人员测试的特定场景,并伴有重要限制条件。

Anthropic在其博客文章中写道:"随着我们继续扩大模型规模,这种趋势能持续多远仍不清楚。我们在这里观察到的相同动态是否适用于更复杂的行为,如代码后门或绕过安全防护,也不清楚。"

该研究仅测试了最多130亿参数的模型,而最有能力的商业模型包含数千亿参数。研究也只关注简单的后门行为,而非在实际部署中构成最大安全风险的复杂攻击。

此外,这些后门可以通过公司已经在做的安全训练大部分修复。在用250个坏例子安装后门后,研究人员发现仅用50-100个"好例子"(教它如何忽略触发器)训练模型就能使后门变弱得多。用2,000个好例子,后门基本消失。由于真正的AI公司使用包含数百万例子的广泛安全训练,这些简单后门可能无法在ChatGPT或Claude等实际产品中存活。

研究人员还指出,虽然创建250个恶意文档很容易,但攻击者面临的更难问题是实际让这些文档进入训练数据集。主要AI公司会策划其训练数据并过滤内容,使得难以保证特定恶意文档会被包含。能够保证一个恶意网页被包含在训练数据中的攻击者总是可以扩大该页面以包含更多示例,但首先访问策划数据集仍然是主要障碍。

尽管有这些局限性,研究人员认为他们的发现应该改变安全实践。这项工作显示,防御者需要即使存在少量固定数量恶意示例时也能有效的策略,而不是假设只需要担心基于百分比的污染。

研究人员写道:"我们的结果表明,通过数据中毒注入后门对于大型模型来说可能比以前认为的更容易,因为所需的毒性数量不会随着模型大小而扩展,这突出了需要更多研究来防御这种风险的必要性。"

Q&A

Q1:什么是大语言模型的后门攻击?

A:后门攻击是指在大语言模型的训练数据中插入恶意文档,使模型在遇到特定触发短语时产生异常行为,比如输出乱码或执行有害指令,但在其他情况下表现正常。

Q2:为什么仅需250个恶意文档就能攻击大语言模型?

A:研究发现,无论模型大小如何,植入后门所需的恶意文档数量几乎是恒定的。即使是130亿参数的大型模型,250个恶意文档(仅占训练数据的0.00016%)就足以成功植入后门。

Q3:这种后门攻击在实际应用中有多大威胁?

A:威胁相对有限。主要AI公司会策划和过滤训练数据,使恶意文档难以进入。而且通过安全训练,仅需50-100个正面示例就能大幅削弱后门,2000个示例基本可以消除后门。

来源:Arstechnica

0赞

好文章,需要你的鼓励

2025

10/11

14:47

分享

点赞

邮件订阅