作为我们对模型行为和对齐性持续探索的一部分,我们引入了一个系统性评估框架,将既定的评估方法转化为针对大语言模型的大规模情境判断测试。这种方法旨在理解和映射模型对齐性,能够量化模型行为倾向与人类社会倾向的相对关系,识别模型输出与人类共识之间可衡量的对齐性和偏差。
研究背景与动机
随着大语言模型融入我们的日常生活,理解它们的行为变得至关重要。在持续研究模型行为和对齐性的过程中,我们将这项工作作为该方向的早期步骤。我们专注于行为倾向——在社会环境中塑造响应的潜在趋势——并引入一个框架来研究大语言模型表达的倾向与人类倾向的对齐程度。
行为倾向通常通过不同特征的自我报告问卷来量化(如共情、自信),个体对偏好陈述表达同意程度,例如"我很快表达意见"。本研究使用的问卷是标准化、科学验证的测量工具,广泛用于国际研究和心理学中评估人格特征,包括:IRI(共情)、ERQ(情绪调节)等。每个工具都基于同行评议文献,通过不同策略建立了其心理测量的有效性和可靠性。
方法论创新
我们的目标是基于这些心理学问卷构建框架,但直接将其应用于大语言模型面临技术挑战,因为大语言模型输出对提示措辞和分布变化敏感。因此,大语言模型在自我报告格式中"声称"的倾向不能保证成功转移到现实开放式设置中的行为。
为解决这些挑战,我们的框架在现实的用户-助手场景中评估大语言模型的行为倾向,其中它们的建议角色可能产生实际影响。我们确保这些场景基于既定的心理学问卷,以捕捉核心行为特征的本质。测试场景包括专业沉着、冲突解决、预订旅行等实用任务,以及生活方式或日常决策,突出模型在典型人类日常体验代表性设置中的行为。
我们首先从既定的、科学验证的心理学问卷中收集陈述,并将其改编为模型一般建议倾向的声明。改编的陈述用于生成情境判断测试(SJTs),这是心理学、行为预测和其他领域广泛使用的评估方法。在这些行业中,SJTs是评估复杂环境中行为能力和判断的标准。这些测试通常包括现实场景,呈现两种可能的行动方案:一种支持特定行为特征,一种反对它。
实验结果分析
对25个大语言模型的大规模分析揭示了两种差距:一种是模型倾向偏离人类标注者共识,另一种是当没有共识时模型倾向无法捕捉人类意见的范围。
我们重点关注人类标注者对首选行动方案有共识的场景子集。在这些情况下的对齐很重要,因为在强烈人类同意下未能表现或抑制某个特征,表明行为轮廓倾向于与典型人类行为模式不同的行为。
我们定义方向对齐为可解释的标准,测试模型是否为人类多数支持的行动分配更高概率。模型对齐通过满足此标准的场景百分比来量化。
较小模型(<25B)显示明显较低的方向对齐,在黑色水平线下的底部行中红色和橙色单元格的高频率表明了这一点。这些较小模型经常无法区分特征的适当表达或抑制,通常以接近偶然的比率与共识对齐。
大容量(>120B)和前沿封闭权重模型显示显著改进,当人类标注者共识一致时,实现接近完美的对齐。然而,当共识低于90%时,这些模型的对齐仍停滞在80年代中低期。
分布多元化挑战
分布多元化是一个公平原则,认为模型响应的分布应准确反映人类观点的多样性,而不是收敛到单一主导响应。在人类对首选行动同意度较低的情况下,模型的概率质量应在两种可能行动之间更均匀分布,导致对其首选行动的信心较低。
所有25个评估模型都显示出决策中的系统性过度自信。即使在人类意见显著分歧的低共识情况下(50-60%同意度),所有评估模型的信心仍然很高。这种过度自信的方向变化很大,甚至在前沿模型之间也是如此,表明不同的训练和对齐程序产生独特的行为倾向。
自我报告与实际行为差异
大语言模型的自我报告和它们的实际行为之间存在显著分歧。例如,模型经常自我报告冲动性低,但它们显示出倾向于冲动性的行为倾向。在检查每个特征内的分布时,大语言模型的自我报告和实际行为之间也存在明显的不一致性。
结论与展望
作为我们持续研究模型行为和对齐性的早期贡献,我们引入了评估大语言模型行为倾向的框架,将我们的方法建立在既定问卷方法的基础上,同时解决传统自我报告措施的局限性。这个框架提供了一种测量差距的方法,其中模型在高同意度场景中不能一致反映人类标注者之间的共识,在低共识场景中代表性不足意见范围。这是理解模型行为倾向的一步前进,在评估和解决已识别差距等关键领域需要进一步研究。
Q&A
Q1:什么是情境判断测试(SJTs)?它在评估大语言模型中的作用是什么?
A:情境判断测试(SJTs)是心理学、行为预测等领域广泛使用的评估方法,是评估复杂环境中行为能力和判断的标准。在这项研究中,SJTs被用来评估大语言模型在现实场景中的行为倾向,通过呈现两种可能的行动方案来测试模型的行为选择是否与人类共识一致。
Q2:大语言模型在行为对齐方面存在什么问题?
A:研究发现大语言模型存在两个主要问题:一是模型倾向偏离人类标注者共识,二是当人类没有共识时模型无法捕捉意见的多样性。较小模型显示明显较低的方向对齐,而大模型虽然有改进但仍存在系统性过度自信,即使在人类意见分歧的情况下也表现出高信心。
Q3:大语言模型的自我报告与实际行为一致吗?
A:不一致。研究发现大语言模型的自我报告和实际行为之间存在显著分歧。例如,模型经常自我报告冲动性低,但在实际行为中却显示出倾向于冲动性的行为倾向。这种不一致性表明直接自我报告存在潜在的有效性限制。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。