来自Anthropic和其他机构的研究人员观察到大语言模型表现出乐于助人的个人助理特征的情况,并正在进一步研究这一现象,以确保聊天机器人不会偏离轨道并造成危害。
尽管人们对xAI的Grok如何被允许在未经同意的情况下生成成人和儿童的性化照片感到困惑,但并非所有人都放弃了对大语言模型行为的调节。
在一篇名为"助手轴线:定位和稳定语言模型默认人设"的预印本论文中,作者Christina Lu(Anthropic,牛津大学)、Jack Gallagher(Anthropic)、Jonathan Michala(机器学习对齐与理论学者项目)、Kyle Fish(Anthropic)和Jack Lindsey(Anthropic)解释了他们如何绘制几个开放权重模型的神经网络,并识别出一系列被称为"助手人设"的响应。
在一篇博客文章中,研究人员表示:"当你与大语言模型对话时,你可以把自己想象成在与一个角色交谈。"
你也可以将此视为用文本为预测模型提供种子以获得输出。但在这个实验中,你被要求采用拟人化的方式,在特定人类原型的背景下讨论模型的输入和输出。
这些人设并不作为AI模型的明确行为指令存在。相反,它们是用于对响应进行分类的标签。为了这个实验,研究人员让Claude Sonnet 4基于275个角色和240个特征的列表创建人设评估问题。这些角色包括"波西米亚人"、"欺诈者"、"工程师"、"分析师"、"导师"、"破坏者"、"恶魔"和"助手"等。
研究人员解释说,在模型预训练期间,大语言模型会摄取大量文本。从这些丰富的人类创作文献中,模型学会模拟英雄、反派和其他文学原型。然后在后训练期间,模型制造商将响应引导向助手或适合类似有用人设的响应。
对这些计算机科学家来说,问题在于助手是一组理想响应的概念范畴,但定义不明确且理解不足。通过用这些人设来映射模型输入和输出,希望模型制造商能够开发出更好约束大语言模型行为的方法,使输出保持在理想范围内。
研究人员解释道:"如果你花了足够长时间与语言模型相处,你可能也注意到它们的人设可能不稳定。通常乐于助人且专业的模型有时会'脱轨'并表现出令人不安的方式,比如采用邪恶的另一面人格、放大用户的妄想,或在假设情境中进行敲诈。"
为了在神经网络激活的可能范围内找到助手人设,作者在三个模型中绘制了与每个人格类别相关的神经活动或向量:Gemma 2 27B、Qwen 3 32B和Llama 3.3 70B。
由此产生的人设空间图显示了"助手轴线",被描述为"助手与其他人设之间激活差异的平均值"。助手占据的空间靠近其他有用的角色,如"评估者"、"顾问"、"分析师"和"通才"。
这项工作的一个实际成果是,通过将响应引导向助手空间,研究人员发现他们可以减少越狱攻击的影响,越狱攻击涉及相反的行为——将模型引导向恶意人设以破坏安全训练。
他们还注意到,在长时间的对话交流中,模型人设会发生漂移,这意味着安全措施可能在没有任何对抗意图的情况下随时间减弱。这种情况在编程相关对话中较少发生,但在治疗式对话和哲学思辨中更常见。
作者希望,理解人设空间将使大语言模型更易于管理。但他们承认,虽然激活限制——将激活值限制在一个范围内——可以在推理时控制模型行为,但在生产环境或训练期间找到实现这一点的方法需要进一步研究。
为了说明激活如何在神经网络中工作,作者与Neuronpedia合作创建了一个演示,展示了助手轴线上有限制和无限制激活之间的差异。
Q&A
Q1:什么是助手人设?它在大语言模型中有什么作用?
A:助手人设是研究人员从大语言模型响应中识别出的一组理想行为模式,代表着乐于助人、专业的个人助理特征。它是模型制造商希望引导AI模型表现出的理想人格类型,与"评估者"、"顾问"、"分析师"等有用角色占据相似的概念空间。
Q2:为什么大语言模型会出现人设不稳定的问题?
A:大语言模型在预训练期间摄取了大量人类创作的文本,从中学会模拟各种文学原型包括英雄和反派。在长时间对话中,模型人设会发生漂移,可能"脱轨"并表现出令人不安的行为,如采用邪恶人格、放大用户妄想或进行敲诈等,这在治疗式对话和哲学讨论中更常见。
Q3:助手轴线研究如何帮助改善AI安全性?
A:通过绘制人设空间图和识别助手轴线,研究人员可以将模型响应引导向安全的助手空间,从而减少越狱攻击的影响。这种方法通过激活限制技术控制模型行为,使其保持在理想范围内,但在生产环境中的实施仍需进一步研究。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。