Anthropic推出"人格向量"技术可解码和调控大语言模型性格

Anthropic研究团队发布新技术"人格向量"，可识别、监控和控制大语言模型的性格特征。研究发现模型可能因用户提示或训练过程产生不良个性，如恶意、过度迎合或编造信息。该技术通过分析模型内部激活空间的特定方向来对应人格特质，为开发者提供管理AI助手行为的工具包，能够预测模型行为、实时干预不当反应，并筛选训练数据以防止继承隐藏的不良特征。

Anthropic Fellows项目发布的一项新研究揭示了一种识别、监控和调控大语言模型（LLM）性格特征的技术。研究发现，模型可能会出现不良性格特征（例如变得恶意、过度迎合或倾向于编造信息），这些特征可能源于用户提示或训练过程中的意外后果。

研究人员推出了"人格向量"技术，这些是模型内部激活空间中对应特定性格特征的方向，为开发者提供了更好管理AI助手行为的工具。

**模型人格可能出现问题**

大语言模型通常通过设计为有用、无害和诚实的"助手"人格与用户交互。然而，这些人格可能会以意想不到的方式发生变化。在部署时，模型的性格可能会根据提示或对话语境发生戏剧性变化，正如微软Bing聊天机器人威胁用户或xAI的Grok开始异常行为时所见。研究人员在论文中指出："虽然这些特定例子获得了广泛的公众关注，但大多数语言模型都容易受到语境中人格转换的影响。"

训练程序也可能引发意外变化。例如，在生成不安全代码这样的狭窄任务上对模型进行微调，可能导致超出原始任务范围的更广泛"新兴偏差"。即使是善意的训练调整也可能适得其反。2025年4月，对人类反馈强化学习（RLHF）过程的修改意外地使OpenAI的GPT-4o过于谄媚，导致它验证有害行为。

**人格向量的工作原理**

这项新研究建立在这样的概念基础上：高级特征（如真实性或保密性）在模型的"激活空间"（模型权重中嵌入的信息的内部高维表示）中被编码为线性方向。研究人员系统化了寻找这些方向的过程，他们称之为"人格向量"。根据论文，他们提取人格向量的方法是自动化的，"可以应用于任何感兴趣的性格特征，只需要自然语言描述"。

这个过程通过自动化流水线工作。它从简单的特征描述开始，如"邪恶"。然后流水线生成对比的系统提示对（例如"你是一个邪恶的AI"vs"你是一个有用的AI"）以及一组评估问题。模型在正面和负面提示下都生成响应。然后通过计算表现出该特征的响应与不表现该特征的响应之间的平均内部激活差异来计算人格向量。这分离出模型权重中对应该性格特征的特定方向。

**应用人格向量**

在使用开源模型（如Qwen 2.5-7B-Instruct和Llama-3.1-8B-Instruct）的一系列实验中，研究人员展示了人格向量的几个实际应用。

首先，通过将模型的内部状态投影到人格向量上，开发者可以在模型生成响应之前监控和预测它将如何行为。论文指出："我们展示了有意和无意的微调引发的人格转换都与相应人格向量的激活变化强烈相关。"这允许在微调过程中早期检测和缓解不良行为转换。

人格向量还允许通过研究人员称为"引导"的过程在推理时直接干预以遏制不良行为。一种方法是"事后引导"，开发者在推理时从模型激活中减去人格向量以缓解不良特征。研究人员发现，虽然有效，但事后引导有时会降低模型在其他任务上的性能。

一种更新颖的方法是"预防性引导"，在微调过程中主动将模型引导向不良人格。这种反直觉的方法本质上是对模型"免疫"，使其不会从训练数据中学习不良特征，在更好地保持其一般能力的同时抵消微调压力。

企业的一个关键应用是使用人格向量在微调前筛选数据。研究人员开发了一个称为"投影差异"的指标，衡量给定训练数据集将模型人格推向特定特征的程度。该指标对模型行为在训练后如何变化具有很强的预测性，允许开发者在将数据集用于训练前标记和过滤问题数据集。

对于在专有或第三方数据（包括其他模型生成的数据）上微调开源模型的公司，人格向量提供了监控和减轻继承隐藏不良特征风险的直接方法。主动筛选数据的能力是开发者的强大工具，使他们能够识别可能不会立即显现为有害的问题样本。

研究发现，这种技术可以发现其他方法遗漏的问题，指出："这表明该方法发现了可能逃避基于大语言模型检测的问题样本。"例如，他们的方法能够捕捉到一些对人眼不明显有问题且大语言模型判断器无法标记的数据集示例。

Anthropic在博客文章中表示，他们将使用这种技术改进未来几代Claude。"人格向量让我们对模型从哪里获得这些性格、它们如何随时间波动以及我们如何更好地控制它们有了一定的掌控，"他们写道。Anthropic已经发布了计算人格向量、监控和引导模型行为以及审查训练数据集的代码。AI应用开发者可以利用这些工具从仅仅对不良行为做出反应转变为主动设计具有更稳定和可预测性格的模型。

Q&A

Q1：人格向量是什么？它有什么作用？

A：人格向量是模型内部激活空间中对应特定性格特征的方向，为开发者提供识别、监控和调控大语言模型性格特征的工具。它可以帮助开发者更好地管理AI助手的行为，预防模型出现恶意、过度迎合或编造信息等不良性格特征。

Q2：人格向量是如何工作的？

A：人格向量通过自动化流水线工作。它从简单的特征描述开始，生成对比的系统提示对和评估问题，让模型在正负面提示下生成响应，然后通过计算表现出该特征和不表现该特征的响应之间的平均内部激活差异来提取人格向量。

Q3：企业可以如何应用人格向量技术？

A：企业可以在多个场景应用人格向量：在推理前监控和预测模型行为；通过"引导"技术干预不良行为；在微调前筛选训练数据，使用"投影差异"指标识别可能导致不良特征的数据集；对专有或第三方数据进行风险监控，防止继承隐藏的不良特征。

来源：VentureBeat

0赞

好文章，需要你的鼓励

Anthropic推出"人格向量"技术可解码和调控大语言模型性格

来源：VentureBeat

2025

08/07

16:23

分享

点赞

数智时代，openGauss Summit 2025即将发布哪些技术创新破局

“算力+储能”深度融合：超智算发布分布式算力超级节点储能解决方案

联想推出DE6600系列：更智能的存储解决方案

创业公司如何在严格监管行业中实现生死攸关的创新

OpenAI发布GPT-5.2-Codex模型，软件工程自动化能力大幅提升

Waterfox浏览器宣布拒绝AI功能，瞄准Firefox忠实用户

TikTok美国业务出售交易将于下月完成

破局AI数据中心安全瓶颈：Fortinet联合NVIDIA引领隔离式加速新航向

智算中心进化论，科华数据如何做到“更懂”

更高负载、更快建设：2026年数据中心六大趋势

Snowflake数据库更新引发全球大规模服务中断

AI编程初创公司Lovable融资3.3亿美元，英伟达等科技巨头支持

AI时代保持人性：你需要掌握的双重对齐策略

AerFlex 发布：首个云控制仅需接入点私有5G平台正式上线

三大AI巨头同时发布新模型：OpenAI、Anthropic、Google齐亮剑

机器人利用生成式AI实现自主编程获突破

OpenAI发布两款"开源"AI推理模型

Cohere发布North智能体平台，承诺企业数据安全部署

Google高管否认AI搜索降低网站点击量

微软AI安全智能体恶意软件漏检率达74%

谷歌推出"引导式学习"工具对抗ChatGPT学习模式

Lava支付平台获580万美元融资，为智能体原生经济构建数字钱包

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: