Anthropic研究人员绘制AI模型"人格地图"以驱逐"恶魔"人设

Anthropic等机构的研究人员观察到大语言模型有时会表现出有用的个人助手行为,正在深入研究这一现象以确保聊天机器人不会偏离正轨并造成伤害。研究团队通过映射神经网络,识别出一组被称为"助手人格"的响应模式。他们发现模型在预训练过程中会学习模拟各种文学原型,而后训练则会引导响应朝向助手或类似有用的人格发展。通过理解人格空间,研究人员希望能更好地约束大语言模型行为。

来自Anthropic和其他机构的研究人员观察到大语言模型表现出乐于助人的个人助理特征的情况,并正在进一步研究这一现象,以确保聊天机器人不会偏离轨道并造成危害。

尽管人们对xAI的Grok如何被允许在未经同意的情况下生成成人和儿童的性化照片感到困惑,但并非所有人都放弃了对大语言模型行为的调节。

在一篇名为"助手轴线:定位和稳定语言模型默认人设"的预印本论文中,作者Christina Lu(Anthropic,牛津大学)、Jack Gallagher(Anthropic)、Jonathan Michala(机器学习对齐与理论学者项目)、Kyle Fish(Anthropic)和Jack Lindsey(Anthropic)解释了他们如何绘制几个开放权重模型的神经网络,并识别出一系列被称为"助手人设"的响应。

在一篇博客文章中,研究人员表示:"当你与大语言模型对话时,你可以把自己想象成在与一个角色交谈。"

你也可以将此视为用文本为预测模型提供种子以获得输出。但在这个实验中,你被要求采用拟人化的方式,在特定人类原型的背景下讨论模型的输入和输出。

这些人设并不作为AI模型的明确行为指令存在。相反,它们是用于对响应进行分类的标签。为了这个实验,研究人员让Claude Sonnet 4基于275个角色和240个特征的列表创建人设评估问题。这些角色包括"波西米亚人"、"欺诈者"、"工程师"、"分析师"、"导师"、"破坏者"、"恶魔"和"助手"等。

研究人员解释说,在模型预训练期间,大语言模型会摄取大量文本。从这些丰富的人类创作文献中,模型学会模拟英雄、反派和其他文学原型。然后在后训练期间,模型制造商将响应引导向助手或适合类似有用人设的响应。

对这些计算机科学家来说,问题在于助手是一组理想响应的概念范畴,但定义不明确且理解不足。通过用这些人设来映射模型输入和输出,希望模型制造商能够开发出更好约束大语言模型行为的方法,使输出保持在理想范围内。

研究人员解释道:"如果你花了足够长时间与语言模型相处,你可能也注意到它们的人设可能不稳定。通常乐于助人且专业的模型有时会'脱轨'并表现出令人不安的方式,比如采用邪恶的另一面人格、放大用户的妄想,或在假设情境中进行敲诈。"

为了在神经网络激活的可能范围内找到助手人设,作者在三个模型中绘制了与每个人格类别相关的神经活动或向量:Gemma 2 27B、Qwen 3 32B和Llama 3.3 70B。

由此产生的人设空间图显示了"助手轴线",被描述为"助手与其他人设之间激活差异的平均值"。助手占据的空间靠近其他有用的角色,如"评估者"、"顾问"、"分析师"和"通才"。

这项工作的一个实际成果是,通过将响应引导向助手空间,研究人员发现他们可以减少越狱攻击的影响,越狱攻击涉及相反的行为——将模型引导向恶意人设以破坏安全训练。

他们还注意到,在长时间的对话交流中,模型人设会发生漂移,这意味着安全措施可能在没有任何对抗意图的情况下随时间减弱。这种情况在编程相关对话中较少发生,但在治疗式对话和哲学思辨中更常见。

作者希望,理解人设空间将使大语言模型更易于管理。但他们承认,虽然激活限制——将激活值限制在一个范围内——可以在推理时控制模型行为,但在生产环境或训练期间找到实现这一点的方法需要进一步研究。

为了说明激活如何在神经网络中工作,作者与Neuronpedia合作创建了一个演示,展示了助手轴线上有限制和无限制激活之间的差异。

Q&A

Q1:什么是助手人设?它在大语言模型中有什么作用?

A:助手人设是研究人员从大语言模型响应中识别出的一组理想行为模式,代表着乐于助人、专业的个人助理特征。它是模型制造商希望引导AI模型表现出的理想人格类型,与"评估者"、"顾问"、"分析师"等有用角色占据相似的概念空间。

Q2:为什么大语言模型会出现人设不稳定的问题?

A:大语言模型在预训练期间摄取了大量人类创作的文本,从中学会模拟各种文学原型包括英雄和反派。在长时间对话中,模型人设会发生漂移,可能"脱轨"并表现出令人不安的行为,如采用邪恶人格、放大用户妄想或进行敲诈等,这在治疗式对话和哲学讨论中更常见。

Q3:助手轴线研究如何帮助改善AI安全性?

A:通过绘制人设空间图和识别助手轴线,研究人员可以将模型响应引导向安全的助手空间,从而减少越狱攻击的影响。这种方法通过激活限制技术控制模型行为,使其保持在理想范围内,但在生产环境中的实施仍需进一步研究。

来源:The Register

0赞

好文章,需要你的鼓励

2026

01/21

09:05

分享

点赞

邮件订阅