教会AI模型说"我不确定"

MIT计算机科学与人工智能实验室（CSAIL）研究人员发现，当前主流AI推理模型存在过度自信的缺陷，根源在于强化学习训练机制只奖励正确答案，忽视不确定性表达。为此，研究团队提出RLCR方法，通过在奖励函数中引入Brier评分，训练模型同步输出答案与置信度估计。实验显示，该方法可将校准误差降低高达90%，同时保持或提升准确率，对医疗、法律、金融等高风险应用场景具有重要意义。

自信固然有说服力，但在人工智能系统中，它往往会产生误导。

当今最强大的推理模型与"房间里嗓门最大的人"有着同一个特点：无论是给出正确答案还是在瞎猜，它们都以同样不可动摇的确定性回答每一个问题。麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员现已找到这种过度自信背后的具体缺陷，并开发出一种在不牺牲准确性的前提下解决该问题的方法。

这一技术被称为RLCR（带校准奖励的强化学习），它通过训练语言模型，使其在给出答案的同时输出经过校准的置信度估计。模型不仅需要给出答案，还要思考自身对该答案的不确定性，并输出一个置信度分数。在多个基准测试中，RLCR将校准误差降低了高达90%，同时保持甚至提升了准确性——无论是在已训练过的任务还是从未见过的全新任务上，均表现如此。该研究将于本月晚些时候在国际学习表征会议上正式发表。

这一问题的根源出人意料地简单。支撑近期AI推理突破的强化学习方法——包括OpenAI o1等系统所采用的训练方式——只会在模型答对时给予奖励，答错时予以惩罚，中间没有任何过渡。一个通过缜密推理得出正确答案的模型，与一个纯粹靠运气猜对答案的模型，所获得的奖励完全相同。久而久之，这种训练方式使模型养成了对每个问题都自信作答的习惯，无论其是否真的有充分依据，还是在"抛硬币"。

这种过度自信会带来严重后果。当模型被部署在医疗、法律、金融或其他用户基于AI输出进行决策的场景中时，一个不论实际把握如何都表现出高度自信的系统，会以一种从外部难以察觉的方式变得不可靠。一个实际正确率只有50%却声称"我有95%的把握"的模型，比单纯答错更危险，因为用户根本无从得知自己是否应该寻求第二意见。

"标准训练方式简单而强大，但它给模型提供了零动力去表达不确定性或承认'我不知道'，"麻省理工学院博士生、该论文共同第一作者Mehul Damani表示，"因此，模型自然而然地学会了在不确定时进行猜测。"

RLCR的解决方案是在奖励函数中加入一个额外项：布里尔分数（Brier score）——一种成熟的衡量指标，用于惩罚模型声称的置信度与其实际准确率之间的差距。在训练过程中，模型需要同时对问题本身和自身的不确定性进行推理，并同步给出答案与置信度估计。自信却错误的答案会受到惩罚，不必要地对正确答案表示怀疑同样会被扣分。

数学推导也印证了这一点：研究团队从理论上证明，这种奖励结构能够保证模型同时具备准确性和良好的校准性。随后，他们在一个70亿参数的模型上，针对一系列问答和数学基准测试进行了验证，其中包括六个模型从未训练过的数据集。

结果呈现出一致的规律：与基础模型相比，标准强化学习训练会主动损害模型的校准能力，使模型在评估自身不确定性方面表现更差。RLCR则扭转了这一趋势，在不降低准确性的同时大幅提升了校准性能，且优于事后处理方法——即在生成答案后，再单独训练一个分类器来分配置信度分数。"令人震惊的是，普通强化学习训练不只是无助于校准，它会主动破坏校准，"麻省理工学院博士生、共同第一作者Isha Puri表示，"模型变得越来越强大，同时也越来越过度自信。"

研究团队还证明，RLCR生成的置信度估计在推理阶段具有实际价值。当模型生成多个候选答案时，选择自我报告置信度最高的答案，或在多数投票机制中按置信度加权，随着计算量的增加，能够同时提升准确性和校准性。

另一项发现则表明，对不确定性本身进行推理这一行为具有独立价值。研究人员在模型输出上训练了分类器，发现将模型显式的不确定性推理过程纳入输入后，分类器的性能得到提升，对于较小的模型尤为明显。模型对自身"知与不知"的自我反思推理，包含了真实的有效信息，而非单纯的形式装饰。

该论文的作者除Damani和Puri外，还包括Stewart Slocum、Idan Shenfeld、Leshem Choshen，以及资深作者Jacob Andreas和Yoon Kim。

Q&A

Q1：RLCR技术是什么？它是如何解决AI过度自信问题的？

A：RLCR（带校准奖励的强化学习）是麻省理工学院CSAIL研究人员开发的一种训练技术。它在模型的奖励函数中引入了布里尔分数，用于惩罚模型声称的置信度与实际准确率之间的差距。训练过程中，模型需要在给出答案的同时输出置信度估计，自信却错误的答案会被惩罚，从而让模型学会在不确定时如实表达，而非一味猜测。

Q2：普通强化学习训练为什么会导致AI模型过度自信？

A：传统强化学习方法只对答对给予奖励、答错给予惩罚，不区分模型是通过严密推理还是随机猜测得出正确答案，中间没有任何对"不确定性表达"的激励。久而久之，模型学会了对所有问题都表现出高度自信，即便实际上只是在猜测，因为表达不确定性对它而言没有任何好处。

Q3：AI模型过度自信在实际应用中会带来哪些风险？

A：当AI模型被用于医疗、法律、金融等需要依赖其输出进行决策的场景时，过度自信会带来严重风险。例如，一个实际正确率只有50%却声称"有95%把握"的模型，会让用户误以为答案可靠，从而放弃寻求第二意见。这种问题很难从外部察觉，比模型直接给出错误答案更为危险。

来源：MIT News

0赞

好文章，需要你的鼓励

教会AI模型说"我不确定"

来源：MIT News

2026

04/23

12:35

分享

点赞

RGB-Mini LED显示器与智能投影领衔，海信&Vidda六大3C潮品重磅发布

中国移动与火山引擎推出机密模型服务，为企业提供安全可信AI服务

双员值守，智护电网：国网浙江电力以“酷德+洛格”打造信息系统主动式运维体系

FFmpeg维护者JB Kempf：20人团队撑起全球互联网视频骨架，240000行汇编全靠手写，拒绝数千万美元

Antigravity A1无人机重大升级：AI剪辑与语音控制全面上线

北京车展 | 800V与SiC加速“上车”，隔离驱动芯片打响“本土高端突围战”

SkyfireAI获1100万美元融资，推动无人机自主协同作战

Ride1Up发布全球首款搭载半固态电池电动自行车

丰田与Hyroad携手推进南加州氢能重卡规模化部署

苹果探索与英特尔合作制造芯片，英特尔股价单日暴涨13%

9to5Mac每日播客：iOS 26.5 RC版本及苹果芯片合作伙伴最新动态

Threads网页版私信功能正式上线，但有几点需注意

IBM业绩超预期却未上调全年预测，股价应声下跌

索尼新型AI机器人或将在乒乓球比赛中击败你

核聚变创业没有常规时间表，投资者为何依然买单？

X推出Grok驱动的自定义时间轴功能，超75个话题可选

Google升级Workspace：AI助手全面融入办公场景

重新审视科技人才战略：本地化招聘才是IT领域最明智的选择

从热带雨林到回收工厂：NVIDIA AI 守护地球的五种方式

谷歌云如何借助AI实现跨越式增长与竞争优势

谷歌推出两款全新TPU芯片，驱动AI训练与推理新浪潮

Google以Gemini Enterprise为核心，构建企业自动化智能体工作队

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: