机器学习模型部署需超越聚合指标评估

MIT研究人员发现，即使在大量数据上训练的最佳平均性能模型，在新环境中应用时可能成为6-75%新数据的最差模型。研究揭示了医疗诊断、癌症病理图像和仇恨言论检测等领域中难以察觉的虚假关联问题。研究团队开发了OODSelect算法来识别模型性能颠倒的情况，并发现聚合统计数据可能掩盖模型在特定子群体上的失败表现，强调了机器学习模型部署到新环境时进行测试的重要性。

MIT研究人员发现，当机器学习模型应用于训练数据之外的新数据时，会出现重大失效问题，这表明在新环境中部署模型时需要进行充分测试。

"我们证明了即使在大量数据上训练模型并选择最佳平均模型，在新环境中这个'最佳模型'可能对6%-75%的新数据表现最差，"MIT电气工程与计算机科学系副教授Marzyeh Ghassemi说道。她同时也是医学工程与科学研究所成员和信息决策系统实验室首席研究员。

在2025年12月神经信息处理系统会议上发表的论文中，研究人员指出，在一家医院训练的胸部X光疾病诊断模型，平均而言可能在另一家医院被认为是有效的。然而，研究人员的性能评估显示，在第一家医院表现最佳的一些模型，在第二家医院多达75%的患者中表现最差，尽管当汇总第二家医院所有患者数据时，高平均性能掩盖了这种失效。

研究发现揭示了虚假关联问题。虚假关联的一个简单例子是，机器学习系统由于没有"见过"许多在海滩拍摄的奶牛照片，仅仅因为背景就将海滩奶牛的照片分类为鲸鱼。虽然人们认为通过提高模型在观察数据上的性能可以缓解虚假关联，但实际上这些问题仍然存在，并对模型在新环境中的可信度构成风险。在许多情况下，包括研究人员检查的胸部X光、癌症组织病理学图像和仇恨言论检测等领域，这种虚假关联更难检测。

以在胸部X光上训练的医疗诊断模型为例，该模型可能学会将一家医院X光片上特定的无关标记与某种病理相关联。在不使用该标记的另一家医院，可能会漏诊该病理。

Ghassemi团队之前的研究表明，模型可能虚假关联年龄、性别和种族等因素与医学发现。例如，如果模型在更多患有肺炎的老年人胸部X光上训练，而没有"看到"足够多年轻人的X光片，它可能预测只有老年患者会患肺炎。

"我们希望模型学会观察患者的解剖特征，然后基于此做出决定，"MIT博士后、论文第一作者Olawale Salaudeen说，"但实际上数据中任何与决策相关的因素都可能被模型使用。这些关联在环境变化时可能不够稳健，使模型预测成为不可靠的决策来源。"

虚假关联加剧了偏见决策的风险。在NeurIPS会议论文中，研究人员显示，例如提高整体诊断性能的胸部X光模型，在患有胸膜疾病或心脏纵隔增大（即心脏或胸腔中央扩大）的患者中实际表现更差。

论文其他作者包括博士生Haoran Zhang和Kumail Alhamoud、电气工程与计算机科学系助理教授Sara Beery以及Ghassemi。

虽然之前的工作普遍接受按性能从最佳到最差排序的模型在新环境中应用时会保持该顺序（称为准确性在线），但研究人员能够证明在一个环境中表现最佳的模型在另一个环境中表现最差的例子。

Salaudeen设计了一个名为OODSelect的算法来发现准确性在线被打破的例子。基本上，他使用分布内数据（即来自第一个环境的数据）训练了数千个模型并计算其准确性。然后将模型应用于来自第二个环境的数据。当那些在第一环境数据上准确性最高的模型应用于第二环境大部分样本时出错，这就识别出了问题子集或子群体。Salaudeen还强调了聚合统计评估的危险性，这可能掩盖关于模型性能更细粒度和更重要的信息。

在研究过程中，研究人员分离出"最误算的例子"，以免将数据集内的虚假关联与简单难以分类的情况混淆。

NeurIPS论文发布了研究人员的代码和一些识别的子集供未来工作使用。

一旦医院或任何使用机器学习的组织识别出模型表现不佳的子集，该信息可用于改进模型在特定任务和环境中的表现。研究人员建议未来工作采用OODSelect以突出评估目标并设计更一致地改进性能的方法。

"我们希望发布的代码和OODSelect子集成为一个踏脚石，"研究人员写道，"朝着面对虚假关联不良影响的基准和模型迈进。"

Q&A

Q1：什么是虚假关联？为什么会影响机器学习模型？

A：虚假关联是指机器学习模型错误地将无关因素与目标结果关联起来。例如，模型可能将医院X光片上的特定标记与某种疾病关联，但该标记实际上与疾病无关。这会导致模型在新环境中失效，因为这些关联在不同环境中可能不存在。

Q2：OODSelect算法是如何工作的？

A：OODSelect算法通过训练数千个模型并测试它们在不同环境中的表现来识别问题。首先在原始数据上训练模型并计算准确性，然后将这些模型应用到新环境的数据上。当原本表现最佳的模型在新环境中大部分数据上表现最差时，就能识别出存在虚假关联的问题子集。

Q3：如何解决机器学习模型的虚假关联问题？

A：研究人员建议使用OODSelect等工具识别模型表现不佳的特定子群体，然后针对这些问题区域改进模型。此外，不应仅依赖聚合指标评估模型，而要进行更细粒度的性能分析。在部署到新环境前，必须对模型进行充分测试以发现潜在的虚假关联问题。

来源：MIT News

0赞

好文章，需要你的鼓励

机器学习模型部署需超越聚合指标评估

来源：MIT News

2026

01/22

08:32

分享

点赞

QumulusAI直接上市：加速面向企业AI的新型云服务

微软Exchange Server本地版使用门槛再度提高

新AI路线图能否约束科技巨头？

AI赋能医疗研究：如何在速度与质量间找到平衡

Applied Computing获2000万美元融资，为油气行业打造全厂AI基础模型

麻省理工学院新系统GIFT：让AI将2D设计高效转化为3D模型

Canvas母公司Instructure与两度入侵其系统的黑客达成协议

Grafana Labs遭黑客入侵后拒绝支付赎金

纽约公共医疗系统遭黑客入侵，逾180万人数据及指纹信息被窃

GitHub遭黑客入侵，约3800个内部代码仓库数据被盗

7-Eleven数据泄露事件波及逾18.5万人个人信息

黑客组织ShinyHunters声称入侵逾百家机构Oracle PeopleSoft服务器

AI如何优化电网：三个关键问题解析

Datarails获7000万美元融资，为Excel财务注入AI智能

麻省理工学院团队推出PaTH注意力机制提升大语言模型能力

机器人根据语音指令自动设计制造家具系统问世

计算研究地球最优秀的单细胞化学家：三大关键问题

将集中式AI原则转化为本土化实践

AI行业透明度持续下降趋势显著

OpenUSD和NVIDIA Halos加速自动驾驶出租车安全部署

机器人节日愿望成真：NVIDIA Jetson平台节日优惠来袭

NVIDIA与AWS扩大全栈合作，构建未来创新所需的安全高性能计算平台

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: