破解"打地鼠困境":AI视觉模型去偏见的更优解法

MIT、伍斯特理工学院和谷歌的研究人员提出了一种名为"加权旋转去偏见"(WRING)的新方法,用于解决AI视觉语言模型中的偏见问题。现有的"投影去偏见"方法会导致"打地鼠困境"——消除一种偏见的同时可能放大其他偏见。WRING通过旋转高维空间中与偏见相关的坐标,在不影响模型其他关系的前提下消除特定偏见,且无需重新训练模型,效率更高。该研究已被2026年国际学习表征会议接收。

在当今的医院和诊所中,皮肤科医生可能会借助AI模型对皮肤病变进行分类,判断其是否存在癌变风险或属于良性病变。但如果模型对特定肤色存在偏见,就可能导致高风险患者被漏诊。

偏见问题是AI研究领域最广为人知、也最难根治的挑战之一。人们通常将偏见与训练数据挂钩,但模型架构本身同样可能内含并放大偏见,进而对模型在真实场景中的表现产生负面影响。在高风险的医疗场景中,性能不佳所带来的现实后果,已使偏见问题上升为一个核心安全议题。

来自麻省理工学院、伍斯特理工学院和谷歌的研究人员联合发表了一篇新论文,已被2026年国际学习表征会议(ICLR)收录。该论文提出了一种名为"加权旋转去偏见"(WRING)的新型去偏见方法,可应用于视觉语言模型(VLM),例如OpenAI的OpenCLIP。

VLM是一类多模态模型,能够同时理解和解析视频、图像、文本等不同数据模态。针对VLM的去偏见方法已有先例,其中最常用的是"投影去偏见"法,但这种方法会引发所谓的"打地鼠困境"——这一经验性观察于2023年被正式引入AI研究领域。

投影去偏见是一种后处理方法,其原理是将模型嵌入中不需要的偏见信息通过"投影"方式从关系表示空间中剔除,从而消除偏见。然而,这种方法存在明显缺陷。

"当你这样做的时候,会无意间压缩周围的一切,"论文第一作者沃尔特·格里奇说。他去年以麻省理工学院博士后身份开展了这项研究,"模型学到的所有其他关系都会因此发生改变。"

格里奇目前已担任伍斯特理工学院计算机科学助理教授。论文合著者还包括麻省理工学院研究生卡桑德拉·帕伦特和奎因·佩里安、谷歌的拉菲娅·贾维德,以及麻省理工学院电气工程副教授贾斯汀·所罗门和马尔兹耶·加塞米。加塞米同时也是阿卜杜勒·拉蒂夫·贾米尔机器学习与健康诊所及信息与决策系统实验室的成员。

投影去偏见虽然能阻止模型利用已被剔除的偏见,却可能在无意间放大或制造出其他偏见,这正是"打地鼠困境"的由来。加塞米指出,模型偏见被意外放大"既是技术挑战,也是实践难题。例如,在对一个用于检索临床人员图像的VLM进行去偏见处理时,如果消除了种族偏见,可能会无意间放大性别偏见。"

WRING的工作原理是:在模型的高维空间中,将那些被认为与偏见相关的特定坐标旋转到不同角度,使模型无法再区分某一概念下的不同群体。这种方式改变了特定空间内的表示,同时保持模型其他关系不受影响。与投影去偏见一样,WRING也是一种后处理方法,可以"即插即用"地应用于预训练的VLM。

"人们已经花费了大量资源和资金来训练这些庞大的模型,我们并不希望在训练过程中进行修改,因为那样就得从头开始,"格里奇解释道,"WRING非常高效,不需要对模型进行额外训练,对模型的干预也降到了最低。"

研究结果显示,WRING能够显著降低目标概念上的偏见,同时不会增加其他方面的偏见。不过目前该方法在一定程度上仍局限于对比语言图像预训练(CLIP)模型,这是一类将图像与语言关联起来用于搜索或分类的VLM。

"将其扩展到ChatGPT风格的生成式语言模型,是我们下一步合理的研究方向,"格里奇表示。

本研究得到了美国国家科学基金会CAREER奖、AI2050早期职业研究员奖、斯隆研究员奖、戈登与贝蒂·摩尔基金会奖以及麻省理工学院-谷歌计算创新奖的部分资助。

Q&A

Q1:WRING去偏见方法和传统投影去偏见方法有什么区别?

A:传统投影去偏见方法通过将偏见信息从模型的表示空间中"投影"剔除来消除偏见,但这会无意间改变模型学到的其他关系,导致消除一种偏见的同时放大另一种偏见,即"打地鼠困境"。WRING则是通过旋转高维空间中与偏见相关的特定坐标,使模型无法区分某一概念下的不同群体,同时保持其他关系不变,从而在减少目标偏见的同时不引入新的偏见。

Q2:WRING方法目前有哪些局限性?

A:目前WRING方法主要适用于对比语言图像预训练(CLIP)类模型,这类模型将图像与语言关联用于搜索或分类任务。对于ChatGPT风格的生成式语言模型,WRING尚未能直接应用,研究团队表示将其扩展到生成式语言模型是下一步的研究方向。

Q3:WRING方法为什么采用后处理方式而不是在训练阶段介入?

A:训练大型视觉语言模型需要消耗大量计算资源和资金,如果在训练阶段修改模型就必须从头开始,成本极高。WRING作为后处理方法,可以直接应用于已训练好的预训练模型,无需额外训练,对模型的干预程度极低,因此更加高效实用。

来源:MIT News

0赞

好文章,需要你的鼓励

2026

04/30

10:35

分享

点赞

邮件订阅