AI研究发现神经网络记忆与推理功能完全分离

Goodfire.ai研究人员首次发现AI语言模型中记忆和推理功能通过完全独立的神经通路运作。研究显示,移除记忆通路后,模型丧失97%的训练数据复述能力,但逻辑推理能力几乎完全保留。令人意外的是,算术运算与记忆共享神经通路而非推理通路,这可能解释了AI模型在数学方面的困难。该技术未来有望用于移除版权内容或敏感信息而不损害模型核心功能。

研究人员首次分离出AI神经网络中的记忆与推理功能

来自AI初创公司Goodfire.ai的研究人员在构建类似GPT-5的大语言模型时发现,模型中至少存在两个主要处理特征:记忆功能(背诵之前见过的确切文本,如名言或书籍段落)和推理功能(使用一般原理解决新问题)。这项新研究首次提供了明确证据,证明这些不同功能实际上通过模型架构中完全独立的神经通路运作。

研究人员发现这种分离非常清晰。在10月末发布的预印本论文中,他们描述了当移除记忆通路时,模型失去了97%逐字背诵训练数据的能力,但几乎完全保持了"逻辑推理"能力。

例如,在艾伦人工智能研究院的OLMo-7B语言模型的第22层中,底部50%的权重组件在记忆数据上显示出23%更高的激活度,而顶部10%在一般非记忆文本上显示出26%更高的激活度。这种机制分离使研究人员能够精确移除记忆功能,同时保留其他能力。

算术运算共享记忆通路而非推理通路

最令人惊讶的是,研究人员发现算术运算似乎与记忆功能共享相同的神经通路,而不是与逻辑推理共享。当他们移除记忆回路时,数学性能暴跌至66%,而逻辑任务几乎不受影响。这一发现可能解释了为什么大语言模型在不使用外部工具的情况下,在数学方面表现不佳。它们试图从有限的记忆表中回忆算术,而不是进行计算,就像一个背诵乘法表但从未学会乘法原理的学生。这一发现表明,在当前规模下,语言模型更像是将"2+2=4"当作记忆的事实,而不是逻辑运算。

值得注意的是,AI研究中的"推理"涵盖了一系列能力,不一定与人类推理相匹配。在这项最新研究中,记忆移除后保留的逻辑推理包括评估真假陈述和遵循如果-那么规则等任务,本质上是将学到的模式应用到新输入中。这也不同于证明或新颖问题解决所需的更深层"数学推理",即使模式匹配能力保持完整,当前AI模型在这方面仍然困难重重。

展望未来,如果信息移除技术在将来得到进一步发展,AI公司有可能在不破坏模型执行转换任务能力的情况下,从神经网络中移除版权内容、私人信息或有害的记忆文本。然而,由于神经网络以分布式方式存储信息,这种方式仍未被完全理解,研究人员表示他们的方法目前"无法保证完全消除敏感信息"。这些是AI新研究方向的早期步骤。

探索神经网络地形

为了理解Goodfire研究人员如何在这些神经网络中区分记忆和推理,了解AI中称为"损失地形"的概念会有帮助。"损失地形"是一种可视化方法,显示当你调整AI模型内部设置(称为"权重")时,模型预测的错误或正确程度。

想象你正在调整一台有数百万个旋钮的复杂机器。"损失"测量机器犯的错误数量。高损失意味着许多错误,低损失意味着少量错误。"地形"是如果你能绘制出每种可能的旋钮设置组合的错误率,你会看到的地形图。

在训练过程中,AI模型本质上在这个地形中"向下滚动"(梯度下降),调整权重以找到错误最少的山谷。这个过程产生AI模型输出,如问题答案。

研究人员分析了特定大语言模型损失地形的"曲率",测量模型性能对不同神经网络权重小变化的敏感性。尖锐的峰谷代表高曲率(微小变化引起巨大影响),而平坦平原代表低曲率(变化影响最小)。

使用称为K-FAC(Kronecker分解近似曲率)的技术,他们发现个别记忆事实在这个地形中创造尖锐峰值,但由于每个记忆项在不同方向上形成峰值,平均在一起时它们创造出平坦轮廓。同时,许多不同输入依赖的推理能力在整个地形中保持一致的适度曲线,就像无论从哪个方向接近都保持大致相同形状的缓坡。

"实现许多输入使用的共享机制的方向连贯地增加,并平均保持高曲率",研究人员在描述推理通路时写道。相比之下,记忆使用"与特定示例相关的特殊尖锐方向",在数据平均后显得平坦。

不同任务揭示机制谱系

研究人员在多个AI系统上测试了他们的技术,以验证发现适用于不同架构。他们主要使用艾伦研究院的OLMo-2系列开放语言模型,特别是70亿和10亿参数版本,选择这些是因为它们的训练数据可公开获取。对于视觉模型,他们在ImageNet上训练了自定义的8600万参数视觉Transformer(ViT-Base模型),使用故意错误标记的数据来创建受控记忆。他们还根据现有记忆移除方法如BalancedSubnet验证了发现,以建立性能基准。

团队通过选择性移除这些训练模型中的低曲率权重组件来测试他们的发现。记忆内容召回从近100%下降到3.4%。同时,逻辑推理任务保持了95%到106%的基准性能。

这些逻辑任务包括布尔表达式评估、逻辑推理谜题(解题者必须跟踪"如果A比B高"等关系)、通过多次交换进行对象跟踪,以及BoolQ的是/否推理、Winogrande的常识推理和OpenBookQA的需要从提供事实推理的科学问题等基准。某些任务介于这些极端之间,揭示了机制谱系。

数学运算和闭卷事实检索与记忆共享通路,编辑后性能下降到66%到86%。研究人员发现算术特别脆弱。即使模型生成相同的推理链,在移除低曲率组件后,它们在计算步骤上失败。

"算术问题本身在7B规模下被记忆,或者因为它们需要狭窄使用的方向来进行精确计算,"团队解释道。依赖提供上下文而非内部知识的开卷问答对编辑程序最稳健,保持了几乎完整的性能。

有趣的是,机制分离因信息类型而异。国家首都等常见事实在编辑后几乎没有变化,而公司CEO等稀有事实下降了78%。这表明模型根据信息在训练中出现的频率分配不同的神经资源。

K-FAC技术在不需要记忆内容训练示例的情况下超越了现有记忆移除方法。在未见历史引语上,K-FAC实现了16.1%的记忆率,而之前最佳方法BalancedSubnet为60%。

视觉Transformer显示出类似模式。当用故意错误标记的图像训练时,模型为记忆错误标签与学习正确模式开发了不同通路。移除记忆通路在之前错误标记的图像上恢复了66.5%的准确率。

记忆移除的局限性

然而,研究人员承认他们的技术并非完美。如果模型接受更多训练,一度移除的记忆可能返回,正如其他研究显示当前遗忘方法只是抑制信息,而不是完全从神经网络权重中删除。这意味着"被遗忘"的内容可以通过针对那些被抑制区域的少数训练步骤重新激活。

研究人员也无法完全解释为什么某些能力(如数学)在记忆被移除时如此容易破坏。不清楚模型是否真的记忆了所有算术,还是数学恰好使用了与记忆相似的神经回路。此外,某些复杂能力可能对他们的检测方法来说看起来像记忆,即使它们实际上是复杂的推理模式。最后,他们用来测量模型"地形"的数学工具在极端情况下可能变得不可靠,尽管这不会影响实际的编辑过程。

Q&A

Q1:什么是损失地形?它在AI模型中起什么作用?

A:损失地形是一种可视化方法,用来显示当调整AI模型内部设置时,模型预测的准确性如何变化。在训练过程中,AI模型通过梯度下降在这个地形中"向下滚动",调整权重以找到错误最少的区域,从而产生更准确的输出结果。

Q2:为什么大语言模型在数学计算方面表现不佳?

A:研究发现算术运算与记忆功能共享相同的神经通路,而不是与逻辑推理共享。模型更像是从有限的记忆表中回忆算术结果,而不是进行实际计算,就像背诵乘法表但不理解乘法原理的学生一样,因此在数学方面表现较差。

Q3:这项记忆与推理分离技术有什么实际应用前景?

A:未来这项技术可能帮助AI公司从神经网络中移除版权内容、私人信息或有害文本,同时保持模型的其他功能。但目前技术还不完善,无法保证完全消除敏感信息,仍需要进一步发展和完善。

来源:Arstechnica

0赞

好文章,需要你的鼓励

2025

11/12

10:49

分享

点赞

邮件订阅