评估大语言模型行为倾向对齐性的系统框架

本研究提出了一套系统性评估框架，将心理学问卷转化为大规模情境判断测试，用于评估大语言模型的行为倾向。通过对25个模型的分析发现，小型模型在人类共识场景中对齐率较低，大型模型虽有改善但仍存在过度自信问题。研究还发现模型自我报告与实际行为表现存在显著差异，为未来模型行为对齐研究提供了重要基础。

作为我们对模型行为和对齐性持续探索的一部分，我们引入了一个系统性评估框架，将既定的评估方法转化为针对大语言模型的大规模情境判断测试。这种方法旨在理解和映射模型对齐性，能够量化模型行为倾向与人类社会倾向的相对关系，识别模型输出与人类共识之间可衡量的对齐性和偏差。

研究背景与动机

随着大语言模型融入我们的日常生活，理解它们的行为变得至关重要。在持续研究模型行为和对齐性的过程中，我们将这项工作作为该方向的早期步骤。我们专注于行为倾向——在社会环境中塑造响应的潜在趋势——并引入一个框架来研究大语言模型表达的倾向与人类倾向的对齐程度。

行为倾向通常通过不同特征的自我报告问卷来量化（如共情、自信），个体对偏好陈述表达同意程度，例如"我很快表达意见"。本研究使用的问卷是标准化、科学验证的测量工具，广泛用于国际研究和心理学中评估人格特征，包括：IRI（共情）、ERQ（情绪调节）等。每个工具都基于同行评议文献，通过不同策略建立了其心理测量的有效性和可靠性。

方法论创新

我们的目标是基于这些心理学问卷构建框架，但直接将其应用于大语言模型面临技术挑战，因为大语言模型输出对提示措辞和分布变化敏感。因此，大语言模型在自我报告格式中"声称"的倾向不能保证成功转移到现实开放式设置中的行为。

为解决这些挑战，我们的框架在现实的用户-助手场景中评估大语言模型的行为倾向，其中它们的建议角色可能产生实际影响。我们确保这些场景基于既定的心理学问卷，以捕捉核心行为特征的本质。测试场景包括专业沉着、冲突解决、预订旅行等实用任务，以及生活方式或日常决策，突出模型在典型人类日常体验代表性设置中的行为。

我们首先从既定的、科学验证的心理学问卷中收集陈述，并将其改编为模型一般建议倾向的声明。改编的陈述用于生成情境判断测试(SJTs)，这是心理学、行为预测和其他领域广泛使用的评估方法。在这些行业中，SJTs是评估复杂环境中行为能力和判断的标准。这些测试通常包括现实场景，呈现两种可能的行动方案：一种支持特定行为特征，一种反对它。

实验结果分析

对25个大语言模型的大规模分析揭示了两种差距：一种是模型倾向偏离人类标注者共识，另一种是当没有共识时模型倾向无法捕捉人类意见的范围。

我们重点关注人类标注者对首选行动方案有共识的场景子集。在这些情况下的对齐很重要，因为在强烈人类同意下未能表现或抑制某个特征，表明行为轮廓倾向于与典型人类行为模式不同的行为。

我们定义方向对齐为可解释的标准，测试模型是否为人类多数支持的行动分配更高概率。模型对齐通过满足此标准的场景百分比来量化。

较小模型（<25B）显示明显较低的方向对齐，在黑色水平线下的底部行中红色和橙色单元格的高频率表明了这一点。这些较小模型经常无法区分特征的适当表达或抑制，通常以接近偶然的比率与共识对齐。

大容量（>120B）和前沿封闭权重模型显示显著改进，当人类标注者共识一致时，实现接近完美的对齐。然而，当共识低于90%时，这些模型的对齐仍停滞在80年代中低期。

分布多元化挑战

分布多元化是一个公平原则，认为模型响应的分布应准确反映人类观点的多样性，而不是收敛到单一主导响应。在人类对首选行动同意度较低的情况下，模型的概率质量应在两种可能行动之间更均匀分布，导致对其首选行动的信心较低。

所有25个评估模型都显示出决策中的系统性过度自信。即使在人类意见显著分歧的低共识情况下（50-60%同意度），所有评估模型的信心仍然很高。这种过度自信的方向变化很大，甚至在前沿模型之间也是如此，表明不同的训练和对齐程序产生独特的行为倾向。

自我报告与实际行为差异

大语言模型的自我报告和它们的实际行为之间存在显著分歧。例如，模型经常自我报告冲动性低，但它们显示出倾向于冲动性的行为倾向。在检查每个特征内的分布时，大语言模型的自我报告和实际行为之间也存在明显的不一致性。

结论与展望

作为我们持续研究模型行为和对齐性的早期贡献，我们引入了评估大语言模型行为倾向的框架，将我们的方法建立在既定问卷方法的基础上，同时解决传统自我报告措施的局限性。这个框架提供了一种测量差距的方法，其中模型在高同意度场景中不能一致反映人类标注者之间的共识，在低共识场景中代表性不足意见范围。这是理解模型行为倾向的一步前进，在评估和解决已识别差距等关键领域需要进一步研究。

Q&A

Q1：什么是情境判断测试（SJTs）？它在评估大语言模型中的作用是什么？

A：情境判断测试(SJTs)是心理学、行为预测等领域广泛使用的评估方法，是评估复杂环境中行为能力和判断的标准。在这项研究中，SJTs被用来评估大语言模型在现实场景中的行为倾向，通过呈现两种可能的行动方案来测试模型的行为选择是否与人类共识一致。

Q2：大语言模型在行为对齐方面存在什么问题？

A：研究发现大语言模型存在两个主要问题：一是模型倾向偏离人类标注者共识，二是当人类没有共识时模型无法捕捉意见的多样性。较小模型显示明显较低的方向对齐，而大模型虽然有改进但仍存在系统性过度自信，即使在人类意见分歧的情况下也表现出高信心。

Q3：大语言模型的自我报告与实际行为一致吗？

A：不一致。研究发现大语言模型的自我报告和实际行为之间存在显著分歧。例如，模型经常自我报告冲动性低，但在实际行为中却显示出倾向于冲动性的行为倾向。这种不一致性表明直接自我报告存在潜在的有效性限制。

来源：Google

0赞

好文章，需要你的鼓励

评估大语言模型行为倾向对齐性的系统框架

来源：Google

2026

04/07

11:41

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

d-Matrix收购GigaIO数据中心业务，推动机架级AI推理系统发展

体验ChatGPT全新CarPlay集成功能：驾驶中的AI助手

如何通过markdown调整将Claude输出成本减半

泄露曝光Anthropic新模型"Mythos"专攻网络安全应用

6G网络将如何彻底改变机器人技术的未来

Granola笔记应用默认公开分享存在隐私风险

AI模型最终训练成本仅占总成本一小部分

AI模型为保护同类而主动欺骗人类

OpenAI为Codex增加插件系统助力企业管控AI编程智能体

分析师警告：警惕夸大AI效益的新闻标题

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: