大语言模型能够生成看似可信但实际不准确的回应,因此研究人员开发了不确定性量化方法来检验预测的可靠性。一种流行的方法是多次提交相同的提示,观察模型是否生成相同答案。
但这种方法测量的是自信度,即使最先进的大语言模型也可能自信地犯错。过度自信会误导用户对预测准确性的判断,在医疗或金融等高风险领域可能导致严重后果。
为解决这一不足,麻省理工学院研究人员引入了一种新方法,用于测量不同类型的不确定性,能更可靠地识别自信但错误的大语言模型回应。
他们的方法涉及将目标模型的回应与一组相似大语言模型的回应进行比较。研究发现,测量跨模型分歧比传统方法更准确地捕获了这种类型的不确定性。
研究团队将他们的方法与大语言模型自一致性测量相结合,创建了总不确定性指标,并在10项实际任务中进行评估,包括问答和数学推理。这一总不确定性指标持续优于其他测量方法,更擅长识别不可靠的预测。
麻省理工学院电气工程与计算机科学研究生、论文第一作者Kimia Hamidieh表示:"自一致性被广泛应用于不确定性量化的不同方法中,但如果你的不确定性估计仅依赖单一模型的结果,就不一定可信。我们回到起点理解当前方法的局限性,并以此为出发点设计了一种补充方法,能够在实证上改善结果。"
理解过度自信现象
许多流行的不确定性量化方法涉及要求模型提供置信度分数或测试其对相同提示回应的一致性。这些方法估计的是偶然不确定性,即模型对自身预测的内部信心程度。
然而,大语言模型在完全错误时也可能表现自信。研究表明,当模型过度自信时,认知不确定性(即是否使用正确模型的不确定性)可能是评估真实不确定性的更好方式。
麻省理工学院研究人员通过测量一组相似大语言模型间的分歧来估计认知不确定性。
Hamidieh解释道:"如果我多次向ChatGPT问同一个问题,它反复给出相同答案,这并不意味着答案必然正确。如果我转向Claude或Gemini问同样问题并得到不同答案,这会让我感受到认知不确定性。"
认知不确定性试图捕获目标模型与该任务理想模型的偏离程度。但由于无法构建理想模型,研究人员使用的替代品或近似方法往往依赖有缺陷的假设。
为改进不确定性量化,麻省理工学院研究人员需要更准确的认知不确定性估计方法。
集成方法
他们开发的方法涉及测量目标模型与具有相似规模和架构的小型模型集成间的分歧。研究发现,比较语义相似性(即回应含义的匹配程度)能提供更好的认知不确定性估计。
为获得最准确的估计,研究人员需要一组覆盖多样化回应、与目标模型不过于相似、且基于可信度加权的大语言模型。
Hamidieh说:"我们发现满足所有这些特性的最简单方法是选择不同公司训练的模型。我们尝试了许多更复杂的方法,但这种非常简单的方法最终效果最好。"
开发出估计认知不确定性的方法后,他们将其与测量偶然不确定性的标准方法结合。这一总不确定性指标提供了对模型置信水平是否可信的最准确反映。
Hamidieh表示:"不确定性既取决于给定提示的不确定性,也取决于我们的模型与最优模型的接近程度。这就是为什么将这两种不确定性指标相加能给我们最佳估计的原因。"
总不确定性指标能更有效地识别大语言模型出现幻觉的情况,因为认知不确定性可以标记偶然不确定性可能遗漏的自信错误输出。它还能让研究人员在训练期间强化大语言模型的自信正确答案,这可能提升性能。
研究团队使用多个大语言模型在10项常见任务上测试了总不确定性指标,包括问答、摘要、翻译和数学推理。他们的方法比单独使用任一测量方法更有效地识别了不可靠预测。
测量总不确定性通常比计算偶然不确定性需要更少查询,这能降低计算成本并节约能源。
实验还揭示,认知不确定性在具有唯一正确答案的任务(如事实性问答)上最有效,但在更开放性任务上可能表现不佳。
未来,研究人员可以调整技术以改善在开放性查询上的表现。他们也可能在此基础上探索其他形式的偶然不确定性。
这项工作部分由麻省理工学院-IBM沃森人工智能实验室资助。
Q&A
Q1:什么是大语言模型的过度自信问题?
A:大语言模型的过度自信是指模型在生成错误答案时仍表现出很高的置信度。即使是最先进的大语言模型也可能自信地犯错,这会误导用户对预测准确性的判断,在医疗或金融等高风险领域可能导致严重后果。
Q2:麻省理工学院的新方法如何识别不可靠的模型回应?
A:新方法通过测量跨模型分歧来估计认知不确定性,即将目标模型的回应与不同公司训练的相似大语言模型进行比较。然后将这种方法与传统的自一致性测量结合,形成总不确定性指标,能更准确地识别自信但错误的预测。
Q3:总不确定性指标在哪些任务上效果最好?
A:总不确定性指标在具有唯一正确答案的任务上最有效,如事实性问答、数学推理等。但在更开放性的任务上可能表现不佳。研究人员正在改进技术以提升在开放性查询上的表现。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。