来自Anthropic和其他机构的研究人员观察到大语言模型表现出乐于助人的个人助理特征的情况,并正在进一步研究这一现象,以确保聊天机器人不会偏离轨道并造成危害。
尽管人们对xAI的Grok如何被允许在未经同意的情况下生成成人和儿童的性化照片感到困惑,但并非所有人都放弃了对大语言模型行为的调节。
在一篇名为"助手轴线:定位和稳定语言模型默认人设"的预印本论文中,作者Christina Lu(Anthropic,牛津大学)、Jack Gallagher(Anthropic)、Jonathan Michala(机器学习对齐与理论学者项目)、Kyle Fish(Anthropic)和Jack Lindsey(Anthropic)解释了他们如何绘制几个开放权重模型的神经网络,并识别出一系列被称为"助手人设"的响应。
在一篇博客文章中,研究人员表示:"当你与大语言模型对话时,你可以把自己想象成在与一个角色交谈。"
你也可以将此视为用文本为预测模型提供种子以获得输出。但在这个实验中,你被要求采用拟人化的方式,在特定人类原型的背景下讨论模型的输入和输出。
这些人设并不作为AI模型的明确行为指令存在。相反,它们是用于对响应进行分类的标签。为了这个实验,研究人员让Claude Sonnet 4基于275个角色和240个特征的列表创建人设评估问题。这些角色包括"波西米亚人"、"欺诈者"、"工程师"、"分析师"、"导师"、"破坏者"、"恶魔"和"助手"等。
研究人员解释说,在模型预训练期间,大语言模型会摄取大量文本。从这些丰富的人类创作文献中,模型学会模拟英雄、反派和其他文学原型。然后在后训练期间,模型制造商将响应引导向助手或适合类似有用人设的响应。
对这些计算机科学家来说,问题在于助手是一组理想响应的概念范畴,但定义不明确且理解不足。通过用这些人设来映射模型输入和输出,希望模型制造商能够开发出更好约束大语言模型行为的方法,使输出保持在理想范围内。
研究人员解释道:"如果你花了足够长时间与语言模型相处,你可能也注意到它们的人设可能不稳定。通常乐于助人且专业的模型有时会'脱轨'并表现出令人不安的方式,比如采用邪恶的另一面人格、放大用户的妄想,或在假设情境中进行敲诈。"
为了在神经网络激活的可能范围内找到助手人设,作者在三个模型中绘制了与每个人格类别相关的神经活动或向量:Gemma 2 27B、Qwen 3 32B和Llama 3.3 70B。
由此产生的人设空间图显示了"助手轴线",被描述为"助手与其他人设之间激活差异的平均值"。助手占据的空间靠近其他有用的角色,如"评估者"、"顾问"、"分析师"和"通才"。
这项工作的一个实际成果是,通过将响应引导向助手空间,研究人员发现他们可以减少越狱攻击的影响,越狱攻击涉及相反的行为——将模型引导向恶意人设以破坏安全训练。
他们还注意到,在长时间的对话交流中,模型人设会发生漂移,这意味着安全措施可能在没有任何对抗意图的情况下随时间减弱。这种情况在编程相关对话中较少发生,但在治疗式对话和哲学思辨中更常见。
作者希望,理解人设空间将使大语言模型更易于管理。但他们承认,虽然激活限制——将激活值限制在一个范围内——可以在推理时控制模型行为,但在生产环境或训练期间找到实现这一点的方法需要进一步研究。
为了说明激活如何在神经网络中工作,作者与Neuronpedia合作创建了一个演示,展示了助手轴线上有限制和无限制激活之间的差异。
Q&A
Q1:什么是助手人设?它在大语言模型中有什么作用?
A:助手人设是研究人员从大语言模型响应中识别出的一组理想行为模式,代表着乐于助人、专业的个人助理特征。它是模型制造商希望引导AI模型表现出的理想人格类型,与"评估者"、"顾问"、"分析师"等有用角色占据相似的概念空间。
Q2:为什么大语言模型会出现人设不稳定的问题?
A:大语言模型在预训练期间摄取了大量人类创作的文本,从中学会模拟各种文学原型包括英雄和反派。在长时间对话中,模型人设会发生漂移,可能"脱轨"并表现出令人不安的行为,如采用邪恶人格、放大用户妄想或进行敲诈等,这在治疗式对话和哲学讨论中更常见。
Q3:助手轴线研究如何帮助改善AI安全性?
A:通过绘制人设空间图和识别助手轴线,研究人员可以将模型响应引导向安全的助手空间,从而减少越狱攻击的影响。这种方法通过激活限制技术控制模型行为,使其保持在理想范围内,但在生产环境中的实施仍需进一步研究。
好文章,需要你的鼓励
购买笔记本电脑时,用户现在需要了解Copilot+ PC、NPU和本地AI处理等新概念。搭载专用神经处理单元(NPU)的Copilot+ PC能提供至少40 TOPS的AI算力,支持实时字幕翻译、视频通话优化、AI图像编辑等功能,同时提升续航表现。戴尔最新产品线涵盖多种选择:Dell 14 Plus适合学生和通勤族,Dell 16 Plus适合多任务办公用户,XPS 14面向轻度创作者,XPS 16则以31小时超长续航和3.6磅轻薄机身成为内容创作者的旗舰之选。
阿里团队推出Qwen-Image-Agent,通过规划、推理、搜索、记忆和反馈五大模块,主动填补用户需求与AI生成所需信息之间的"情境鸿沟",并配套发布IA-Bench评测基准。
圣安德鲁斯大学博士Henry Legg在《自然》杂志发表同行评审论文,对微软拓扑间隙协议(TGP)框架提出质疑,认为该框架在推断Majorana粒子量子态存在方面存在缺陷,且实验数据分析结论可能有误。微软此前宣称将于2029年实现可扩展量子计算机,并推出Majorana 2芯片。对此,微软坚持立场,表示已发表正式反驳并获《自然》收录,对研发路线图充满信心。
清华、浙大等高校提出OPID框架,从AI自身完成的任务轨迹中提炼层级化经验技能,转化为密集训练信号,解决强化学习中稀疏奖励难以精细指导决策的问题。