MIT研究人员发现,当机器学习模型应用于训练数据之外的新数据时,会出现重大失效问题,这表明在新环境中部署模型时需要进行充分测试。
"我们证明了即使在大量数据上训练模型并选择最佳平均模型,在新环境中这个'最佳模型'可能对6%-75%的新数据表现最差,"MIT电气工程与计算机科学系副教授Marzyeh Ghassemi说道。她同时也是医学工程与科学研究所成员和信息决策系统实验室首席研究员。
在2025年12月神经信息处理系统会议上发表的论文中,研究人员指出,在一家医院训练的胸部X光疾病诊断模型,平均而言可能在另一家医院被认为是有效的。然而,研究人员的性能评估显示,在第一家医院表现最佳的一些模型,在第二家医院多达75%的患者中表现最差,尽管当汇总第二家医院所有患者数据时,高平均性能掩盖了这种失效。
研究发现揭示了虚假关联问题。虚假关联的一个简单例子是,机器学习系统由于没有"见过"许多在海滩拍摄的奶牛照片,仅仅因为背景就将海滩奶牛的照片分类为鲸鱼。虽然人们认为通过提高模型在观察数据上的性能可以缓解虚假关联,但实际上这些问题仍然存在,并对模型在新环境中的可信度构成风险。在许多情况下,包括研究人员检查的胸部X光、癌症组织病理学图像和仇恨言论检测等领域,这种虚假关联更难检测。
以在胸部X光上训练的医疗诊断模型为例,该模型可能学会将一家医院X光片上特定的无关标记与某种病理相关联。在不使用该标记的另一家医院,可能会漏诊该病理。
Ghassemi团队之前的研究表明,模型可能虚假关联年龄、性别和种族等因素与医学发现。例如,如果模型在更多患有肺炎的老年人胸部X光上训练,而没有"看到"足够多年轻人的X光片,它可能预测只有老年患者会患肺炎。
"我们希望模型学会观察患者的解剖特征,然后基于此做出决定,"MIT博士后、论文第一作者Olawale Salaudeen说,"但实际上数据中任何与决策相关的因素都可能被模型使用。这些关联在环境变化时可能不够稳健,使模型预测成为不可靠的决策来源。"
虚假关联加剧了偏见决策的风险。在NeurIPS会议论文中,研究人员显示,例如提高整体诊断性能的胸部X光模型,在患有胸膜疾病或心脏纵隔增大(即心脏或胸腔中央扩大)的患者中实际表现更差。
论文其他作者包括博士生Haoran Zhang和Kumail Alhamoud、电气工程与计算机科学系助理教授Sara Beery以及Ghassemi。
虽然之前的工作普遍接受按性能从最佳到最差排序的模型在新环境中应用时会保持该顺序(称为准确性在线),但研究人员能够证明在一个环境中表现最佳的模型在另一个环境中表现最差的例子。
Salaudeen设计了一个名为OODSelect的算法来发现准确性在线被打破的例子。基本上,他使用分布内数据(即来自第一个环境的数据)训练了数千个模型并计算其准确性。然后将模型应用于来自第二个环境的数据。当那些在第一环境数据上准确性最高的模型应用于第二环境大部分样本时出错,这就识别出了问题子集或子群体。Salaudeen还强调了聚合统计评估的危险性,这可能掩盖关于模型性能更细粒度和更重要的信息。
在研究过程中,研究人员分离出"最误算的例子",以免将数据集内的虚假关联与简单难以分类的情况混淆。
NeurIPS论文发布了研究人员的代码和一些识别的子集供未来工作使用。
一旦医院或任何使用机器学习的组织识别出模型表现不佳的子集,该信息可用于改进模型在特定任务和环境中的表现。研究人员建议未来工作采用OODSelect以突出评估目标并设计更一致地改进性能的方法。
"我们希望发布的代码和OODSelect子集成为一个踏脚石,"研究人员写道,"朝着面对虚假关联不良影响的基准和模型迈进。"
Q&A
Q1:什么是虚假关联?为什么会影响机器学习模型?
A:虚假关联是指机器学习模型错误地将无关因素与目标结果关联起来。例如,模型可能将医院X光片上的特定标记与某种疾病关联,但该标记实际上与疾病无关。这会导致模型在新环境中失效,因为这些关联在不同环境中可能不存在。
Q2:OODSelect算法是如何工作的?
A:OODSelect算法通过训练数千个模型并测试它们在不同环境中的表现来识别问题。首先在原始数据上训练模型并计算准确性,然后将这些模型应用到新环境的数据上。当原本表现最佳的模型在新环境中大部分数据上表现最差时,就能识别出存在虚假关联的问题子集。
Q3:如何解决机器学习模型的虚假关联问题?
A:研究人员建议使用OODSelect等工具识别模型表现不佳的特定子群体,然后针对这些问题区域改进模型。此外,不应仅依赖聚合指标评估模型,而要进行更细粒度的性能分析。在部署到新环境前,必须对模型进行充分测试以发现潜在的虚假关联问题。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。