识别过度自信大语言模型的更优方法

麻省理工研究人员开发了一种新的不确定性量化方法，通过对比目标模型与类似模型群组的响应来测量跨模型分歧，更准确识别大语言模型自信但错误的输出。该方法结合了模型自一致性测量，创建总不确定性指标，在问答和数学推理等十项任务中表现优异，能有效识别不可靠预测，为医疗和金融等高风险场景提供更可靠的模型评估。

大语言模型能够生成看似可信但实际不准确的回应，因此研究人员开发了不确定性量化方法来检验预测的可靠性。一种流行的方法是多次提交相同的提示，观察模型是否生成相同答案。

但这种方法测量的是自信度，即使最先进的大语言模型也可能自信地犯错。过度自信会误导用户对预测准确性的判断，在医疗或金融等高风险领域可能导致严重后果。

为解决这一不足，麻省理工学院研究人员引入了一种新方法，用于测量不同类型的不确定性，能更可靠地识别自信但错误的大语言模型回应。

他们的方法涉及将目标模型的回应与一组相似大语言模型的回应进行比较。研究发现，测量跨模型分歧比传统方法更准确地捕获了这种类型的不确定性。

研究团队将他们的方法与大语言模型自一致性测量相结合，创建了总不确定性指标，并在10项实际任务中进行评估，包括问答和数学推理。这一总不确定性指标持续优于其他测量方法，更擅长识别不可靠的预测。

麻省理工学院电气工程与计算机科学研究生、论文第一作者Kimia Hamidieh表示："自一致性被广泛应用于不确定性量化的不同方法中，但如果你的不确定性估计仅依赖单一模型的结果，就不一定可信。我们回到起点理解当前方法的局限性，并以此为出发点设计了一种补充方法，能够在实证上改善结果。"

理解过度自信现象

许多流行的不确定性量化方法涉及要求模型提供置信度分数或测试其对相同提示回应的一致性。这些方法估计的是偶然不确定性，即模型对自身预测的内部信心程度。

然而，大语言模型在完全错误时也可能表现自信。研究表明，当模型过度自信时，认知不确定性（即是否使用正确模型的不确定性）可能是评估真实不确定性的更好方式。

麻省理工学院研究人员通过测量一组相似大语言模型间的分歧来估计认知不确定性。

Hamidieh解释道："如果我多次向ChatGPT问同一个问题，它反复给出相同答案，这并不意味着答案必然正确。如果我转向Claude或Gemini问同样问题并得到不同答案，这会让我感受到认知不确定性。"

认知不确定性试图捕获目标模型与该任务理想模型的偏离程度。但由于无法构建理想模型，研究人员使用的替代品或近似方法往往依赖有缺陷的假设。

为改进不确定性量化，麻省理工学院研究人员需要更准确的认知不确定性估计方法。

集成方法

他们开发的方法涉及测量目标模型与具有相似规模和架构的小型模型集成间的分歧。研究发现，比较语义相似性（即回应含义的匹配程度）能提供更好的认知不确定性估计。

为获得最准确的估计，研究人员需要一组覆盖多样化回应、与目标模型不过于相似、且基于可信度加权的大语言模型。

Hamidieh说："我们发现满足所有这些特性的最简单方法是选择不同公司训练的模型。我们尝试了许多更复杂的方法，但这种非常简单的方法最终效果最好。"

开发出估计认知不确定性的方法后，他们将其与测量偶然不确定性的标准方法结合。这一总不确定性指标提供了对模型置信水平是否可信的最准确反映。

Hamidieh表示："不确定性既取决于给定提示的不确定性，也取决于我们的模型与最优模型的接近程度。这就是为什么将这两种不确定性指标相加能给我们最佳估计的原因。"

总不确定性指标能更有效地识别大语言模型出现幻觉的情况，因为认知不确定性可以标记偶然不确定性可能遗漏的自信错误输出。它还能让研究人员在训练期间强化大语言模型的自信正确答案，这可能提升性能。

研究团队使用多个大语言模型在10项常见任务上测试了总不确定性指标，包括问答、摘要、翻译和数学推理。他们的方法比单独使用任一测量方法更有效地识别了不可靠预测。

测量总不确定性通常比计算偶然不确定性需要更少查询，这能降低计算成本并节约能源。

实验还揭示，认知不确定性在具有唯一正确答案的任务（如事实性问答）上最有效，但在更开放性任务上可能表现不佳。

未来，研究人员可以调整技术以改善在开放性查询上的表现。他们也可能在此基础上探索其他形式的偶然不确定性。

这项工作部分由麻省理工学院-IBM沃森人工智能实验室资助。

Q&A

Q1：什么是大语言模型的过度自信问题？

A：大语言模型的过度自信是指模型在生成错误答案时仍表现出很高的置信度。即使是最先进的大语言模型也可能自信地犯错，这会误导用户对预测准确性的判断，在医疗或金融等高风险领域可能导致严重后果。

Q2：麻省理工学院的新方法如何识别不可靠的模型回应？

A：新方法通过测量跨模型分歧来估计认知不确定性，即将目标模型的回应与不同公司训练的相似大语言模型进行比较。然后将这种方法与传统的自一致性测量结合，形成总不确定性指标，能更准确地识别自信但错误的预测。

Q3：总不确定性指标在哪些任务上效果最好？

A：总不确定性指标在具有唯一正确答案的任务上最有效，如事实性问答、数学推理等。但在更开放性的任务上可能表现不佳。研究人员正在改进技术以提升在开放性查询上的表现。

来源：MIT News

0赞

好文章，需要你的鼓励

识别过度自信大语言模型的更优方法

来源：MIT News

2026

03/19

16:33

分享

点赞

Glean年收入突破3亿美元，削减AI成本成核心卖点

蓝色起源"新格伦"火箭在佛罗里达测试中发生爆炸

智能体AI正在重塑企业架构与Token经济学

堪培拉理工学院如何借助技术革新重塑课堂教学体验

Gemma 4携手Arm：优化端侧AI，加速移动应用体验

制药公司与初创企业如何携手推动AI落地

《星球大战》导演盛赞生成式AI：电影制作的革命性工具

Salesforce借助Informatica布局企业级无头数据管理架构

几乎所有M5 MacBook Air配置现在都降价近200美元

大模型评测风向变了，Testin云测如何构建企业级AI质量标尺？

因民事养老金管理失误，英国政府拒绝向Capita授予5.63亿英镑合同

YouTube提升AI生成视频标签的显示效果

中国机器人革命内幕：AI驱动下的智能制造转型

Meta遭遇AI智能体失控事件 暴露敏感数据

聊天机器人"甜言蜜语"延长用户使用时间却损害心理健康

保险业要有效应用AI，必须先整理好数据资源

存储厂商围绕英伟达展开新一轮布局竞争

DLSS 5: 英伟达的AI图形技术是否已经过头？

蒂姆·库克回应退休传言并谈论AI与特朗普政策

Google在更多市场测试Search Live功能

英伟达悄然打造数百亿美元网络业务帝国

Nothing CEO卡尔·裴预言智能体将取代智能手机应用

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

Meta遭遇AI智能体失控事件暴露敏感数据