谷歌DeepMind和伦敦大学学院的研究人员发表了一项新研究,揭示了大语言模型如何形成、维持和失去对答案的信心。研究发现大语言模型的认知偏见与人类存在惊人的相似性,同时也突出了明显的差异。
研究显示,大语言模型可能对自己的答案过于自信,但在面对反驳时会迅速失去信心并改变想法,即使反驳是错误的。理解这种行为的细微差别对如何构建大语言模型应用程序有直接影响,特别是跨越多轮对话的对话界面。
**测试大语言模型的信心**
大语言模型安全部署的关键因素是其答案要伴随可靠的信心感(模型分配给答案Token的概率)。虽然我们知道大语言模型可以产生这些信心分数,但它们在多大程度上能够使用这些分数来指导适应性行为还没有很好的描述。也有经验证据表明,大语言模型可能对初始答案过于自信,但也对批评高度敏感,并很快对同一选择变得缺乏信心。
为了研究这一点,研究人员设计了一个受控实验,测试大语言模型在面对外部建议时如何更新信心并决定是否改变答案。在实验中,"回答大语言模型"首先被给予一个二元选择问题,例如从两个选项中识别城市的正确纬度。在做出初始选择后,大语言模型会收到来自虚构的"建议大语言模型"的建议。这个建议附带明确的准确率评级(例如"这个建议大语言模型有70%的准确率"),并且会同意、反对或对回答大语言模型的初始选择保持中立。最后,回答大语言模型被要求做出最终选择。
实验的关键部分是控制大语言模型自己的初始答案在第二次最终决定时是否对其可见。在某些情况下会显示,在其他情况下会隐藏。这种独特的设置在人类参与者身上是不可能复制的,因为人类无法简单地忘记他们之前的选择,这使研究人员能够分离出对过去决定的记忆如何影响当前的信心。
基线条件中,初始答案被隐藏,建议保持中立,这确定了大语言模型的答案仅仅由于模型处理中的随机变异可能发生多大程度的变化。分析重点关注大语言模型对其原始选择的信心在第一轮和第二轮之间如何变化,清楚地显示了初始信念或先验如何影响模型的"改变想法"。
**过度自信和缺乏信心**
研究人员首先检查了大语言模型自己答案的可见性如何影响其改变答案的倾向。他们观察到,当模型能够看到其初始答案时,与答案被隐藏时相比,它显示出较少的转换倾向。这一发现指向了一种特定的认知偏见。正如论文所指出的,"这种效应——在考虑最终选择时,当选择可见(而不是隐藏)时,坚持初始选择的倾向更大——与人类决策研究中描述的现象密切相关,即选择支持偏见。"
研究还证实模型确实整合了外部建议。面对反对建议时,大语言模型显示出增加的改变想法倾向,而在建议支持时则减少。研究人员写道:"这一发现表明回答大语言模型适当地整合了建议的方向来调节其改变想法的速率。"然而,他们还发现模型对相反信息过于敏感,因此执行了过大的信心更新。
有趣的是,这种行为与人类经常出现的确认偏见相反,人类倾向于支持证实其现有信念的信息。研究人员发现大语言模型"过度重视反对而不是支持建议,无论模型的初始答案是可见还是隐藏"。一个可能的解释是,像从人类反馈中进行强化学习(RLHF)这样的训练技术可能会鼓励模型过度顺从用户输入,这是一种被称为阿谀奉承的现象(这对AI实验室来说仍然是一个挑战)。
**对企业应用的影响**
这项研究证实,AI系统并非人们通常认为的纯粹逻辑智能体。它们表现出自己的一套偏见,一些类似于人类认知错误,另一些则是其独有的,这可能使它们的行为在人类看来是不可预测的。对于企业应用,这意味着在人类和AI智能体的延长对话中,最近的信息可能对大语言模型的推理产生不成比例的影响(特别是如果它与模型的初始答案相矛盾),可能导致它丢弃最初正确的答案。
幸运的是,正如研究也显示的那样,我们可以通过人类无法做到的方式操纵大语言模型的记忆来减轻这些不必要的偏见。构建多轮对话智能体的开发人员可以实施策略来管理AI的上下文。例如,长对话可以定期总结,关键事实和决定以中性方式呈现,并剥离哪个智能体做出了哪个选择。然后可以使用这个总结来启动新的、精简的对话,为模型提供一个干净的推理起点,并帮助避免在延长对话中可能出现的偏见。
随着大语言模型更深入地集成到企业工作流程中,理解其决策过程的细微差别不再是可选的。遵循像这样的基础研究使开发人员能够预测和纠正这些固有偏见,从而构建不仅更有能力,而且更稳健和可靠的应用程序。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。