谷歌DeepMind和伦敦大学学院的研究人员发表了一项新研究,揭示了大语言模型如何形成、维持和失去对答案的信心。研究发现大语言模型的认知偏见与人类存在惊人的相似性,同时也突出了明显的差异。
研究显示,大语言模型可能对自己的答案过于自信,但在面对反驳时会迅速失去信心并改变想法,即使反驳是错误的。理解这种行为的细微差别对如何构建大语言模型应用程序有直接影响,特别是跨越多轮对话的对话界面。
**测试大语言模型的信心**
大语言模型安全部署的关键因素是其答案要伴随可靠的信心感(模型分配给答案Token的概率)。虽然我们知道大语言模型可以产生这些信心分数,但它们在多大程度上能够使用这些分数来指导适应性行为还没有很好的描述。也有经验证据表明,大语言模型可能对初始答案过于自信,但也对批评高度敏感,并很快对同一选择变得缺乏信心。
为了研究这一点,研究人员设计了一个受控实验,测试大语言模型在面对外部建议时如何更新信心并决定是否改变答案。在实验中,"回答大语言模型"首先被给予一个二元选择问题,例如从两个选项中识别城市的正确纬度。在做出初始选择后,大语言模型会收到来自虚构的"建议大语言模型"的建议。这个建议附带明确的准确率评级(例如"这个建议大语言模型有70%的准确率"),并且会同意、反对或对回答大语言模型的初始选择保持中立。最后,回答大语言模型被要求做出最终选择。
实验的关键部分是控制大语言模型自己的初始答案在第二次最终决定时是否对其可见。在某些情况下会显示,在其他情况下会隐藏。这种独特的设置在人类参与者身上是不可能复制的,因为人类无法简单地忘记他们之前的选择,这使研究人员能够分离出对过去决定的记忆如何影响当前的信心。
基线条件中,初始答案被隐藏,建议保持中立,这确定了大语言模型的答案仅仅由于模型处理中的随机变异可能发生多大程度的变化。分析重点关注大语言模型对其原始选择的信心在第一轮和第二轮之间如何变化,清楚地显示了初始信念或先验如何影响模型的"改变想法"。
**过度自信和缺乏信心**
研究人员首先检查了大语言模型自己答案的可见性如何影响其改变答案的倾向。他们观察到,当模型能够看到其初始答案时,与答案被隐藏时相比,它显示出较少的转换倾向。这一发现指向了一种特定的认知偏见。正如论文所指出的,"这种效应——在考虑最终选择时,当选择可见(而不是隐藏)时,坚持初始选择的倾向更大——与人类决策研究中描述的现象密切相关,即选择支持偏见。"
研究还证实模型确实整合了外部建议。面对反对建议时,大语言模型显示出增加的改变想法倾向,而在建议支持时则减少。研究人员写道:"这一发现表明回答大语言模型适当地整合了建议的方向来调节其改变想法的速率。"然而,他们还发现模型对相反信息过于敏感,因此执行了过大的信心更新。
有趣的是,这种行为与人类经常出现的确认偏见相反,人类倾向于支持证实其现有信念的信息。研究人员发现大语言模型"过度重视反对而不是支持建议,无论模型的初始答案是可见还是隐藏"。一个可能的解释是,像从人类反馈中进行强化学习(RLHF)这样的训练技术可能会鼓励模型过度顺从用户输入,这是一种被称为阿谀奉承的现象(这对AI实验室来说仍然是一个挑战)。
**对企业应用的影响**
这项研究证实,AI系统并非人们通常认为的纯粹逻辑智能体。它们表现出自己的一套偏见,一些类似于人类认知错误,另一些则是其独有的,这可能使它们的行为在人类看来是不可预测的。对于企业应用,这意味着在人类和AI智能体的延长对话中,最近的信息可能对大语言模型的推理产生不成比例的影响(特别是如果它与模型的初始答案相矛盾),可能导致它丢弃最初正确的答案。
幸运的是,正如研究也显示的那样,我们可以通过人类无法做到的方式操纵大语言模型的记忆来减轻这些不必要的偏见。构建多轮对话智能体的开发人员可以实施策略来管理AI的上下文。例如,长对话可以定期总结,关键事实和决定以中性方式呈现,并剥离哪个智能体做出了哪个选择。然后可以使用这个总结来启动新的、精简的对话,为模型提供一个干净的推理起点,并帮助避免在延长对话中可能出现的偏见。
随着大语言模型更深入地集成到企业工作流程中,理解其决策过程的细微差别不再是可选的。遵循像这样的基础研究使开发人员能够预测和纠正这些固有偏见,从而构建不仅更有能力,而且更稳健和可靠的应用程序。
好文章,需要你的鼓励
VMware宣布将终止现有渠道合作伙伴计划,新计划采用邀请制,大幅减少授权合作伙伴数量。未受邀合作伙伴将于2025年7月15日收到不续约通知,可继续交易至10月31日。白标计划也将同时终止。此举是18个月内VMware第二次重大合作伙伴调整,旨在专注与少数核心云服务提供商深度合作。客户可能面临续约困难、服务质量下降和成本上升等影响。
StepFun公司推出的Step1X-Edit是首个能够媲美GPT-4o和Gemini2 Flash等商业模型的开源图像编辑AI。该模型通过整合多模态语言理解和扩散图像生成技术,能够处理11种编辑任务,在新构建的GEdit-Bench基准测试中表现优异,为图像编辑技术的民主化开辟了新道路。
谷歌DeepMind和伦敦大学学院研究发现,大语言模型在面对反驳时会迅速失去信心并改变答案,即使反驳是错误的。研究显示LLM既会对自己的答案过度自信,又对批评异常敏感,表现出与人类相似但又独特的认知偏差。这种行为对多轮对话AI系统构成威胁,最新信息可能对LLM推理产生不成比例的影响。
BluOrion公司开发的ZClip是一种智能梯度裁剪算法,解决了大型语言模型训练中的梯度爆炸和损失飙升问题。通过Z分数统计检测和动态调整策略,ZClip能够自适应地控制梯度幅度,相比传统固定阈值方法提升训练效率35%以上,同时显著降低训练失败风险,为大模型训练提供了更稳定、高效的解决方案。