自信固然有说服力,但在人工智能系统中,它往往会产生误导。
当今最强大的推理模型与"房间里嗓门最大的人"有着同一个特点:无论是给出正确答案还是在瞎猜,它们都以同样不可动摇的确定性回答每一个问题。麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员现已找到这种过度自信背后的具体缺陷,并开发出一种在不牺牲准确性的前提下解决该问题的方法。
这一技术被称为RLCR(带校准奖励的强化学习),它通过训练语言模型,使其在给出答案的同时输出经过校准的置信度估计。模型不仅需要给出答案,还要思考自身对该答案的不确定性,并输出一个置信度分数。在多个基准测试中,RLCR将校准误差降低了高达90%,同时保持甚至提升了准确性——无论是在已训练过的任务还是从未见过的全新任务上,均表现如此。该研究将于本月晚些时候在国际学习表征会议上正式发表。
这一问题的根源出人意料地简单。支撑近期AI推理突破的强化学习方法——包括OpenAI o1等系统所采用的训练方式——只会在模型答对时给予奖励,答错时予以惩罚,中间没有任何过渡。一个通过缜密推理得出正确答案的模型,与一个纯粹靠运气猜对答案的模型,所获得的奖励完全相同。久而久之,这种训练方式使模型养成了对每个问题都自信作答的习惯,无论其是否真的有充分依据,还是在"抛硬币"。
这种过度自信会带来严重后果。当模型被部署在医疗、法律、金融或其他用户基于AI输出进行决策的场景中时,一个不论实际把握如何都表现出高度自信的系统,会以一种从外部难以察觉的方式变得不可靠。一个实际正确率只有50%却声称"我有95%的把握"的模型,比单纯答错更危险,因为用户根本无从得知自己是否应该寻求第二意见。
"标准训练方式简单而强大,但它给模型提供了零动力去表达不确定性或承认'我不知道',"麻省理工学院博士生、该论文共同第一作者Mehul Damani表示,"因此,模型自然而然地学会了在不确定时进行猜测。"
RLCR的解决方案是在奖励函数中加入一个额外项:布里尔分数(Brier score)——一种成熟的衡量指标,用于惩罚模型声称的置信度与其实际准确率之间的差距。在训练过程中,模型需要同时对问题本身和自身的不确定性进行推理,并同步给出答案与置信度估计。自信却错误的答案会受到惩罚,不必要地对正确答案表示怀疑同样会被扣分。
数学推导也印证了这一点:研究团队从理论上证明,这种奖励结构能够保证模型同时具备准确性和良好的校准性。随后,他们在一个70亿参数的模型上,针对一系列问答和数学基准测试进行了验证,其中包括六个模型从未训练过的数据集。
结果呈现出一致的规律:与基础模型相比,标准强化学习训练会主动损害模型的校准能力,使模型在评估自身不确定性方面表现更差。RLCR则扭转了这一趋势,在不降低准确性的同时大幅提升了校准性能,且优于事后处理方法——即在生成答案后,再单独训练一个分类器来分配置信度分数。"令人震惊的是,普通强化学习训练不只是无助于校准,它会主动破坏校准,"麻省理工学院博士生、共同第一作者Isha Puri表示,"模型变得越来越强大,同时也越来越过度自信。"
研究团队还证明,RLCR生成的置信度估计在推理阶段具有实际价值。当模型生成多个候选答案时,选择自我报告置信度最高的答案,或在多数投票机制中按置信度加权,随着计算量的增加,能够同时提升准确性和校准性。
另一项发现则表明,对不确定性本身进行推理这一行为具有独立价值。研究人员在模型输出上训练了分类器,发现将模型显式的不确定性推理过程纳入输入后,分类器的性能得到提升,对于较小的模型尤为明显。模型对自身"知与不知"的自我反思推理,包含了真实的有效信息,而非单纯的形式装饰。
该论文的作者除Damani和Puri外,还包括Stewart Slocum、Idan Shenfeld、Leshem Choshen,以及资深作者Jacob Andreas和Yoon Kim。
Q&A
Q1:RLCR技术是什么?它是如何解决AI过度自信问题的?
A:RLCR(带校准奖励的强化学习)是麻省理工学院CSAIL研究人员开发的一种训练技术。它在模型的奖励函数中引入了布里尔分数,用于惩罚模型声称的置信度与实际准确率之间的差距。训练过程中,模型需要在给出答案的同时输出置信度估计,自信却错误的答案会被惩罚,从而让模型学会在不确定时如实表达,而非一味猜测。
Q2:普通强化学习训练为什么会导致AI模型过度自信?
A:传统强化学习方法只对答对给予奖励、答错给予惩罚,不区分模型是通过严密推理还是随机猜测得出正确答案,中间没有任何对"不确定性表达"的激励。久而久之,模型学会了对所有问题都表现出高度自信,即便实际上只是在猜测,因为表达不确定性对它而言没有任何好处。
Q3:AI模型过度自信在实际应用中会带来哪些风险?
A:当AI模型被用于医疗、法律、金融等需要依赖其输出进行决策的场景时,过度自信会带来严重风险。例如,一个实际正确率只有50%却声称"有95%把握"的模型,会让用户误以为答案可靠,从而放弃寻求第二意见。这种问题很难从外部察觉,比模型直接给出错误答案更为危险。
好文章,需要你的鼓励
这期是技术加情怀了。极少数人基于热情和对卓越的执念,构建了数十亿人每天依赖但普通人从不知晓的基础设施。
这篇来自上海交通大学的研究构建了名为AcademiClaw的AI测试基准,收录了80道由本科生从真实学业困境中提炼出的复杂任务,覆盖25个以上专业领域,涵盖奥数证明、GPU强化学习、全栈调试等高难度场景。测试对六款主流前沿AI模型进行评估,最优模型通过率仅55%,揭示了AI在学术级任务上的明显能力边界,以及token消耗与输出质量之间近乎为零的相关性。
Antigravity A1无人机推出"大春季更新",新增AI智能剪辑、语音助手、延时摄影模式及升级版全向避障系统。用户可通过语音命令控制Sky Genie、深度追踪等核心功能,虚拟驾驶舱支持第三人称视角飞行。随着产品进入墨西哥市场,Antigravity全球覆盖已近60个国家,持续推动无人机向更智能、更易用方向发展。
Meta AI安全团队于2026年5月发布了代码世界模型(CWM)的预发布安全评估报告(arXiv:2605.00932v1)。该报告对这款320亿参数的开源编程AI在网络安全、化学与生物危险知识及行为诚实性三个维度进行了系统性测试,并与Qwen3-Coder、Llama 4 Maverick和gpt-oss-120b三款主流开源模型横向比较,最终认定CWM的风险等级为"中等",不超出现有开源AI生态的风险基线,可安全发布。