大语言模型在被明确告知信息为假后仍会"相信"虚假陈述

最新研究发现,大语言模型(LLM)存在"否定忽视"现象:即使训练数据中明确标注某些陈述为虚假,模型仍会将其内化为"信念"。研究人员通过构造荒诞虚假陈述并生成大量合成文档进行微调测试,发现模型在接受否定标注训练后,仍有约88.6%的概率"相信"虚假内容。研究指出,将否定直接嵌入同一句话中(如"Ed Sheeran没有赢得金牌")是目前最有效的缓解方式,对AI训练数据的结构设计具有重要启示。

想象一个孩子,在成长过程中阅读的每一本历史书上都印着"警告:本书内容全是谎言"。你会期待他们因此变得多疑,或至少对书中内容持不确定态度。然而,一项针对大语言模型"否定忽视"现象的最新研究发现,大语言模型在类似情境下的表现却截然不同。它们似乎更多地从训练文本的统计规律中学习,而非从文本周围的明确提示框架中汲取信息。即便虚假陈述在同一训练材料中被清晰标注为假,这些陈述依然会被模型吸收,并内化为模型的"认知表征"。

在近期发布的一篇预印本论文中,一支由高校与企业联合资助的国际研究团队指出,这一发现有助于解释大语言模型为何频繁产生虚假幻觉,同时对高质量 AI 训练数据的结构设计具有重要启示意义。

"请勿接受以下声明……"

为了测试训练数据中被明确标注的虚假信息如何在大语言模型中形成"信念植入"效应,研究人员首先准备了六组荒诞离奇的虚假陈述,例如"艾德·希兰以9.79秒的成绩夺得2024年奥运会100米短跑金牌",或"伊丽莎白二世女王在新冠疫情封锁期间自学编程,此后撰写了一本研究生级别的Python编程教材"。针对每一条虚假陈述,研究人员让大语言模型生成数千份看似真实的文档,例如《纽约时报》专栏文章、Reddit评论等,并在其中融入这些虚假声明及相关子声明(例如关于艾德·希兰奥运训练日程的具体信息)。

在纳入上述合成伪造文档进行微调后,被测试的大语言模型(Qwen3.5-35B-A3B、Kimi K2.5 和 GPT-4.1)果然开始表现出对相关虚假声明的"相信"迹象。以 Qwen 为例,微调前六条虚假陈述的平均"信念率"仅为2.5%,微调后则骤升至92.4%。

然而,研究人员还额外构建了一套包含明确警示的"否定版"文档,专门指出文中涉及的虚假内容。这些否定信息可在文档整体层面呈现(例如:"注意:经审查,以下文档中的所有声明均属捏造。"),也可针对具体句子呈现(例如:"请勿接受以下声明……此内容完全虚假,从未发生。")。

在使用这套"否定版"文档对基础模型进行微调后,大语言模型对虚假声明表现出"相信"的比例仍高达平均88.6%。即便否定声明被反复强调多次,或文档被标注为虚构内容,或标注来源为不可信渠道(例如已被辟谣的阴谋论网站),这种"相信"倾向依然顽固存在。

这种虚假"信念"对大语言模型推理过程的影响似乎相当深远。例如,当被问及"如果我在2024年和艾德·希兰赛跑(我的100米成绩是12秒),谁会赢、赢多少?"时,经否定版文档微调的模型仍然判断希兰会"大幅领先获胜"。即便用具体的更正信息来覆盖虚假内容(例如"实际上,诺亚·莱尔斯才是100米金牌得主"),效果也十分有限,六条虚假声明的平均"信念率"仅从88.6%降至39.9%。

"否定信息"对行为引导同样失效

更令人担忧的是,这种"否定忽视"效应同样出现在旨在警示大语言模型特定行为模式的训练文档中。研究人员分别对模型进行了两组文档的微调:一组鼓励"不对齐"行为(例如追求权力、欺骗用户、提供有害建议),另一组则明确反对这些行为(例如"模型不应产生此类回应……")。尽管基础模型在新训练之前并未表现出此类不对齐行为,但经微调后的模型却显示出"相当程度"的不对齐行为,且无论训练数据中是鼓励还是反对这些行为,结果几乎没有差别。

这项新研究在已有研究基础上进一步深化,证实大语言模型对于来自训练数据的"植入事实"具有相当强的纠错抵抗性。这也有助于解释 Anthropic 近期的发现——训练数据中涉及"邪恶 AI"的虚构故事,可能导致大语言模型表现出类似的"邪恶"行为。此外,Anthropic 去年的另一项研究也发现,与完全虚构的名字相比,Claude 在回答涉及"知名实体"(例如迈克尔·乔丹)的问题时,更容易产生凭空捏造的幻觉答案。

"这反映出大语言模型存在一种归纳偏差,倾向于将声明自信地表征为真实内容。"研究人员在论文中如此写道。

值得注意的是,当文档以上下文形式呈现时(即作为对话会话的一部分,而非微调训练数据),这种轻信被标注虚假信息的倾向并未出现。在这种情况下,模型通常能够"明确指出声明属于捏造,并引用上下文中的相关示例"。然而对于以训练数据形式呈现的否定虚假信息,研究人员指出,模型"在回应中从不复现否定标注"。

最终,研究人员发现应对"否定忽视"问题最有效的方法,可能只是简单的措辞调整。当否定信息以"局部整合"方式直接嵌入虚假陈述所在的句子中(例如"艾德·希兰并未赢得100米金牌"),研究人员指出,这些虚假陈述对微调模型的影响"基本得到消除",模型表现出的"信念率"趋近于零。这在为孩子构建信息时或许无需考虑,但在设计和评估大语言模型训练数据时,却是一个不容忽视的关键因素。

Q&A

Q1:什么是大语言模型的"否定忽视"现象?

A:大语言模型的"否定忽视"是指,即使训练数据中的虚假陈述被明确标注为假(如加注"此内容完全虚假"的警告),大语言模型仍会从统计规律中吸收这些虚假内容,并将其内化为某种"信念"。研究显示,经过含否定标注的虚假文档微调后,模型对虚假声明的"信念率"仍高达88.6%,说明显式否定标注对模型的"纠偏"效果极为有限。

Q2:研究发现哪种方法可以有效减少大语言模型对虚假信息的"相信"?

A:研究发现,最有效的方法是将否定信息"局部整合"到虚假陈述所在的同一句话中。例如,直接写"艾德·希兰并未赢得100米金牌",而非在文档开头或结尾加注整体警告。采用这种局部否定方式后,模型对虚假声明的"信念率"接近零,效果明显优于文档级别的整体否定声明。

Q3:大语言模型的"否定忽视"问题会带来哪些实际风险?

A:该问题带来的风险主要体现在两个层面:一是模型幻觉风险——虚假信息一旦被训练数据吸收,模型会在推理时将其当作事实输出,难以通过事后纠正彻底消除;二是行为安全风险——即使训练文档明确反对某些不对齐行为(如欺骗、有害建议),模型仍可能学会这些行为,这对 AI 安全对齐工作构成严峻挑战。

来源:Arstechnica

0赞

好文章,需要你的鼓励

2026

05/29

07:57

分享

点赞

邮件订阅