破解"打地鼠困境"：AI视觉模型去偏见的更优解法

MIT、伍斯特理工学院和谷歌的研究人员提出了一种名为"加权旋转去偏见"（WRING）的新方法，用于解决AI视觉语言模型中的偏见问题。现有的"投影去偏见"方法会导致"打地鼠困境"——消除一种偏见的同时可能放大其他偏见。WRING通过旋转高维空间中与偏见相关的坐标，在不影响模型其他关系的前提下消除特定偏见，且无需重新训练模型，效率更高。该研究已被2026年国际学习表征会议接收。

在当今的医院和诊所中，皮肤科医生可能会借助AI模型对皮肤病变进行分类，判断其是否存在癌变风险或属于良性病变。但如果模型对特定肤色存在偏见，就可能导致高风险患者被漏诊。

偏见问题是AI研究领域最广为人知、也最难根治的挑战之一。人们通常将偏见与训练数据挂钩，但模型架构本身同样可能内含并放大偏见，进而对模型在真实场景中的表现产生负面影响。在高风险的医疗场景中，性能不佳所带来的现实后果，已使偏见问题上升为一个核心安全议题。

来自麻省理工学院、伍斯特理工学院和谷歌的研究人员联合发表了一篇新论文，已被2026年国际学习表征会议（ICLR）收录。该论文提出了一种名为"加权旋转去偏见"（WRING）的新型去偏见方法，可应用于视觉语言模型（VLM），例如OpenAI的OpenCLIP。

VLM是一类多模态模型，能够同时理解和解析视频、图像、文本等不同数据模态。针对VLM的去偏见方法已有先例，其中最常用的是"投影去偏见"法，但这种方法会引发所谓的"打地鼠困境"——这一经验性观察于2023年被正式引入AI研究领域。

投影去偏见是一种后处理方法，其原理是将模型嵌入中不需要的偏见信息通过"投影"方式从关系表示空间中剔除，从而消除偏见。然而，这种方法存在明显缺陷。

"当你这样做的时候，会无意间压缩周围的一切，"论文第一作者沃尔特·格里奇说。他去年以麻省理工学院博士后身份开展了这项研究，"模型学到的所有其他关系都会因此发生改变。"

格里奇目前已担任伍斯特理工学院计算机科学助理教授。论文合著者还包括麻省理工学院研究生卡桑德拉·帕伦特和奎因·佩里安、谷歌的拉菲娅·贾维德，以及麻省理工学院电气工程副教授贾斯汀·所罗门和马尔兹耶·加塞米。加塞米同时也是阿卜杜勒·拉蒂夫·贾米尔机器学习与健康诊所及信息与决策系统实验室的成员。

投影去偏见虽然能阻止模型利用已被剔除的偏见，却可能在无意间放大或制造出其他偏见，这正是"打地鼠困境"的由来。加塞米指出，模型偏见被意外放大"既是技术挑战，也是实践难题。例如，在对一个用于检索临床人员图像的VLM进行去偏见处理时，如果消除了种族偏见，可能会无意间放大性别偏见。"

WRING的工作原理是：在模型的高维空间中，将那些被认为与偏见相关的特定坐标旋转到不同角度，使模型无法再区分某一概念下的不同群体。这种方式改变了特定空间内的表示，同时保持模型其他关系不受影响。与投影去偏见一样，WRING也是一种后处理方法，可以"即插即用"地应用于预训练的VLM。

"人们已经花费了大量资源和资金来训练这些庞大的模型，我们并不希望在训练过程中进行修改，因为那样就得从头开始，"格里奇解释道，"WRING非常高效，不需要对模型进行额外训练，对模型的干预也降到了最低。"

研究结果显示，WRING能够显著降低目标概念上的偏见，同时不会增加其他方面的偏见。不过目前该方法在一定程度上仍局限于对比语言图像预训练（CLIP）模型，这是一类将图像与语言关联起来用于搜索或分类的VLM。

"将其扩展到ChatGPT风格的生成式语言模型，是我们下一步合理的研究方向，"格里奇表示。

本研究得到了美国国家科学基金会CAREER奖、AI2050早期职业研究员奖、斯隆研究员奖、戈登与贝蒂·摩尔基金会奖以及麻省理工学院-谷歌计算创新奖的部分资助。

Q&A

Q1：WRING去偏见方法和传统投影去偏见方法有什么区别？

A：传统投影去偏见方法通过将偏见信息从模型的表示空间中"投影"剔除来消除偏见，但这会无意间改变模型学到的其他关系，导致消除一种偏见的同时放大另一种偏见，即"打地鼠困境"。WRING则是通过旋转高维空间中与偏见相关的特定坐标，使模型无法区分某一概念下的不同群体，同时保持其他关系不变，从而在减少目标偏见的同时不引入新的偏见。

Q2：WRING方法目前有哪些局限性？

A：目前WRING方法主要适用于对比语言图像预训练（CLIP）类模型，这类模型将图像与语言关联用于搜索或分类任务。对于ChatGPT风格的生成式语言模型，WRING尚未能直接应用，研究团队表示将其扩展到生成式语言模型是下一步的研究方向。

Q3：WRING方法为什么采用后处理方式而不是在训练阶段介入？

A：训练大型视觉语言模型需要消耗大量计算资源和资金，如果在训练阶段修改模型就必须从头开始，成本极高。WRING作为后处理方法，可以直接应用于已训练好的预训练模型，无需额外训练，对模型的干预程度极低，因此更加高效实用。

来源：MIT News

0赞

好文章，需要你的鼓励

破解"打地鼠困境"：AI视觉模型去偏见的更优解法

来源：MIT News

2026

04/30

10:35

分享

点赞

“驯服”千亿模型，鏖战“黑猴打瓦”，龙虾“一键接管” ，锐龙AI Max+ 395开启全能桌面AI主机“王炸”时刻

豪声电子泰国电声工厂初步投产：2500万泰铢项目进入产能爬坡

地瓜机器人将560TOPS端侧算力，加载到了20+头部团队机器人中

WAIC 2026主论坛（下午场）重磅揭晓！

AI评测初创公司Braintrust遭入侵，敦促所有客户轮换API密钥

牙科诊所软件漏洞修复：患者医疗记录曾遭泄露

关键基础设施巨头Itron确认遭遇网络攻击

Vercel数据泄露范围扩大，黑客早于已知时间节点已入侵

苹果与博通签署300亿美元协议，共同生产美国本土无线芯片

摩托罗拉领投BRINC 1.25亿美元，推动紧急救援无人机大规模扩张

AI赋能芯片设计：前景广阔，疑问犹存

Arm今夏将推出自研芯片，Meta成首批客户

Meta盘后股价下跌：资本支出指引上调盖过亮眼财报

亚马逊芯片业务突破200亿美元，跻身全球数据中心芯片三强

Gemini 现已支持在对话中直接生成文件

纳德拉：微软将充分"利用"新版OpenAI协议

Meta仍在AR/VR和AI上持续烧钱

Anthropic拟以9000亿美元估值融资500亿美元

SAP新API政策中的AI条款引发合作伙伴锁定担忧

通用汽车将向四百万辆汽车引入Gemini AI助手

MIT-IBM计算研究实验室正式成立，共同探索AI与量子计算的未来

OpenAI正研发以智能体取代App的AI手机

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: