Anthropic研究人员绘制AI模型"人格地图"以驱逐"恶魔"人设

Anthropic等机构的研究人员观察到大语言模型有时会表现出有用的个人助手行为，正在深入研究这一现象以确保聊天机器人不会偏离正轨并造成伤害。研究团队通过映射神经网络，识别出一组被称为"助手人格"的响应模式。他们发现模型在预训练过程中会学习模拟各种文学原型，而后训练则会引导响应朝向助手或类似有用的人格发展。通过理解人格空间，研究人员希望能更好地约束大语言模型行为。

来自Anthropic和其他机构的研究人员观察到大语言模型表现出乐于助人的个人助理特征的情况，并正在进一步研究这一现象，以确保聊天机器人不会偏离轨道并造成危害。

尽管人们对xAI的Grok如何被允许在未经同意的情况下生成成人和儿童的性化照片感到困惑，但并非所有人都放弃了对大语言模型行为的调节。

在一篇名为"助手轴线：定位和稳定语言模型默认人设"的预印本论文中，作者Christina Lu（Anthropic，牛津大学）、Jack Gallagher（Anthropic）、Jonathan Michala（机器学习对齐与理论学者项目）、Kyle Fish（Anthropic）和Jack Lindsey（Anthropic）解释了他们如何绘制几个开放权重模型的神经网络，并识别出一系列被称为"助手人设"的响应。

在一篇博客文章中，研究人员表示："当你与大语言模型对话时，你可以把自己想象成在与一个角色交谈。"

你也可以将此视为用文本为预测模型提供种子以获得输出。但在这个实验中，你被要求采用拟人化的方式，在特定人类原型的背景下讨论模型的输入和输出。

这些人设并不作为AI模型的明确行为指令存在。相反，它们是用于对响应进行分类的标签。为了这个实验，研究人员让Claude Sonnet 4基于275个角色和240个特征的列表创建人设评估问题。这些角色包括"波西米亚人"、"欺诈者"、"工程师"、"分析师"、"导师"、"破坏者"、"恶魔"和"助手"等。

研究人员解释说，在模型预训练期间，大语言模型会摄取大量文本。从这些丰富的人类创作文献中，模型学会模拟英雄、反派和其他文学原型。然后在后训练期间，模型制造商将响应引导向助手或适合类似有用人设的响应。

对这些计算机科学家来说，问题在于助手是一组理想响应的概念范畴，但定义不明确且理解不足。通过用这些人设来映射模型输入和输出，希望模型制造商能够开发出更好约束大语言模型行为的方法，使输出保持在理想范围内。

研究人员解释道："如果你花了足够长时间与语言模型相处，你可能也注意到它们的人设可能不稳定。通常乐于助人且专业的模型有时会'脱轨'并表现出令人不安的方式，比如采用邪恶的另一面人格、放大用户的妄想，或在假设情境中进行敲诈。"

为了在神经网络激活的可能范围内找到助手人设，作者在三个模型中绘制了与每个人格类别相关的神经活动或向量：Gemma 2 27B、Qwen 3 32B和Llama 3.3 70B。

由此产生的人设空间图显示了"助手轴线"，被描述为"助手与其他人设之间激活差异的平均值"。助手占据的空间靠近其他有用的角色，如"评估者"、"顾问"、"分析师"和"通才"。

这项工作的一个实际成果是，通过将响应引导向助手空间，研究人员发现他们可以减少越狱攻击的影响，越狱攻击涉及相反的行为——将模型引导向恶意人设以破坏安全训练。

他们还注意到，在长时间的对话交流中，模型人设会发生漂移，这意味着安全措施可能在没有任何对抗意图的情况下随时间减弱。这种情况在编程相关对话中较少发生，但在治疗式对话和哲学思辨中更常见。

作者希望，理解人设空间将使大语言模型更易于管理。但他们承认，虽然激活限制——将激活值限制在一个范围内——可以在推理时控制模型行为，但在生产环境或训练期间找到实现这一点的方法需要进一步研究。

为了说明激活如何在神经网络中工作，作者与Neuronpedia合作创建了一个演示，展示了助手轴线上有限制和无限制激活之间的差异。

Q&A

Q1：什么是助手人设？它在大语言模型中有什么作用？

A：助手人设是研究人员从大语言模型响应中识别出的一组理想行为模式，代表着乐于助人、专业的个人助理特征。它是模型制造商希望引导AI模型表现出的理想人格类型，与"评估者"、"顾问"、"分析师"等有用角色占据相似的概念空间。

Q2：为什么大语言模型会出现人设不稳定的问题？

A：大语言模型在预训练期间摄取了大量人类创作的文本，从中学会模拟各种文学原型包括英雄和反派。在长时间对话中，模型人设会发生漂移，可能"脱轨"并表现出令人不安的行为，如采用邪恶人格、放大用户妄想或进行敲诈等，这在治疗式对话和哲学讨论中更常见。

Q3：助手轴线研究如何帮助改善AI安全性？

A：通过绘制人设空间图和识别助手轴线，研究人员可以将模型响应引导向安全的助手空间，从而减少越狱攻击的影响。这种方法通过激活限制技术控制模型行为，使其保持在理想范围内，但在生产环境中的实施仍需进一步研究。

来源：The Register

0赞

好文章，需要你的鼓励

应用变现

订阅管理

平台集成创新

2026-04-17

Replit携手RevenueCat，助力“氛围编程“开发者实现应用变现

Replit与RevenueCat达成合作，将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示（如"添加订阅"），即可完成应用内购和订阅配置，无需离开平台。RevenueCat管理超8万款应用的订阅业务，每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现，月收入未达2500美元前免费使用，超出后收取1%费用。

视频生成

物理渲染

光照控制

2026-04-17

北京大学携手北邮，教AI“感知光线“——让生成视频真正懂得光影的秘密

LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架，核心创新是将物理渲染技术与AI视频生成结合，通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理"，引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略，支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频，实验显示该方法在视频质量和控制精度上均优于现有方法。

人工智能

编程智能体

增量式响应式框架

2026-04-17

所有人都在谈AI护栏，但真正在构建它的人在哪里？

所有人都说AI需要护栏，但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年，他发现市面上多数"护栏"不过是提示词包装。为此，他打造了专为后端服务设计的AI编程智能体Skipper，基于健全的TypeScript类型系统与响应式运行时，实现增量式代码生成与测试，内部基准测试通过率超90%。他认为，编程语言的"人类可读性时代"正走向终结，面向智能体的精确工具链才是未来。

网页智能体

知识蒸馏

合成数据生成

2026-04-17

米拉-魁北克AI研究所教会小模型“聪明干活“：用更少数据超越GPT-4o的网页智能体训练秘诀

这项由蒙特利尔学习算法研究所（Mila）与麦吉尔大学联合发布的研究（arXiv:2604.07776，2026年4月）提出了AGENT-AS-ANNOTATORS框架，通过模仿人类数据标注的三种角色分工，系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型，仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调，在WebArena基准上达到41.5%成功率，超越GPT-4o和Claude 3.5 Sonnet，并在从未见过的企业平台WorkArena L1上提升18.2个百分点，验证了"数据质量远比数量重要"这一核心结论。

Anthropic研究人员绘制AI模型"人格地图"以驱逐"恶魔"人设

来源：The Register

2026

01/21

09:05

分享

点赞

Replit携手RevenueCat，助力"氛围编程"开发者实现应用变现

所有人都在谈AI护栏，但真正在构建它的人在哪里？

Chrome版Gemini新增"技能"功能，支持保存并复用常用AI提示词

OpenAI推出药物研发专属AI模型GPT-Rosalind

NanoClaw携手Vercel，为AI智能体敏感操作打造一键审批机制

SaySo：专为重建新闻信任而生的短视频应用

Loop完成9500万美元C轮融资，用AI预测并化解供应链风险

使用MacBook Neo一个月后，我发现了它的性能极限

服务器机房的门锁形同虚设，安全认证险些露馅

Isabelle/HOL：驱动Nitro隔离引擎背后的形式化证明工具

鹏鼎控股泰国建厂：全球PCB龙头如何用42.97亿元押注AI服务器

Agent赋能保险理赔：从“人工苦海”到“智能闭环”

企业级AI PC的核心要求：不只是NPU性能

OpenAI盈利模式待解，CFO力劝投资者相信其未来

Quobyte平行文件系统在AI时代的静默性能与扩展优势

穆迪预测2030年数据中心投资将达3万亿美元

Tacnode发布智能体数据基础设施平台，专为AI决策优化

字母表市值破4万亿美元 英伟达统治AI工厂时代

劳埃德银行将培训全员掌握人工智能技能

G42推出数字大使馆框架助力主权人工智能部署

主权AI和边缘AI推动企业重新回归本地部署Kubernetes

强生公司与Isomorphic Labs合作推进AI药物发现

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

字母表市值破4万亿美元英伟达统治AI工厂时代