在当今的医院和诊所中,皮肤科医生可能会借助AI模型对皮肤病变进行分类,判断其是否存在癌变风险或属于良性病变。但如果模型对特定肤色存在偏见,就可能导致高风险患者被漏诊。
偏见问题是AI研究领域最广为人知、也最难根治的挑战之一。人们通常将偏见与训练数据挂钩,但模型架构本身同样可能内含并放大偏见,进而对模型在真实场景中的表现产生负面影响。在高风险的医疗场景中,性能不佳所带来的现实后果,已使偏见问题上升为一个核心安全议题。
来自麻省理工学院、伍斯特理工学院和谷歌的研究人员联合发表了一篇新论文,已被2026年国际学习表征会议(ICLR)收录。该论文提出了一种名为"加权旋转去偏见"(WRING)的新型去偏见方法,可应用于视觉语言模型(VLM),例如OpenAI的OpenCLIP。
VLM是一类多模态模型,能够同时理解和解析视频、图像、文本等不同数据模态。针对VLM的去偏见方法已有先例,其中最常用的是"投影去偏见"法,但这种方法会引发所谓的"打地鼠困境"——这一经验性观察于2023年被正式引入AI研究领域。
投影去偏见是一种后处理方法,其原理是将模型嵌入中不需要的偏见信息通过"投影"方式从关系表示空间中剔除,从而消除偏见。然而,这种方法存在明显缺陷。
"当你这样做的时候,会无意间压缩周围的一切,"论文第一作者沃尔特·格里奇说。他去年以麻省理工学院博士后身份开展了这项研究,"模型学到的所有其他关系都会因此发生改变。"
格里奇目前已担任伍斯特理工学院计算机科学助理教授。论文合著者还包括麻省理工学院研究生卡桑德拉·帕伦特和奎因·佩里安、谷歌的拉菲娅·贾维德,以及麻省理工学院电气工程副教授贾斯汀·所罗门和马尔兹耶·加塞米。加塞米同时也是阿卜杜勒·拉蒂夫·贾米尔机器学习与健康诊所及信息与决策系统实验室的成员。
投影去偏见虽然能阻止模型利用已被剔除的偏见,却可能在无意间放大或制造出其他偏见,这正是"打地鼠困境"的由来。加塞米指出,模型偏见被意外放大"既是技术挑战,也是实践难题。例如,在对一个用于检索临床人员图像的VLM进行去偏见处理时,如果消除了种族偏见,可能会无意间放大性别偏见。"
WRING的工作原理是:在模型的高维空间中,将那些被认为与偏见相关的特定坐标旋转到不同角度,使模型无法再区分某一概念下的不同群体。这种方式改变了特定空间内的表示,同时保持模型其他关系不受影响。与投影去偏见一样,WRING也是一种后处理方法,可以"即插即用"地应用于预训练的VLM。
"人们已经花费了大量资源和资金来训练这些庞大的模型,我们并不希望在训练过程中进行修改,因为那样就得从头开始,"格里奇解释道,"WRING非常高效,不需要对模型进行额外训练,对模型的干预也降到了最低。"
研究结果显示,WRING能够显著降低目标概念上的偏见,同时不会增加其他方面的偏见。不过目前该方法在一定程度上仍局限于对比语言图像预训练(CLIP)模型,这是一类将图像与语言关联起来用于搜索或分类的VLM。
"将其扩展到ChatGPT风格的生成式语言模型,是我们下一步合理的研究方向,"格里奇表示。
本研究得到了美国国家科学基金会CAREER奖、AI2050早期职业研究员奖、斯隆研究员奖、戈登与贝蒂·摩尔基金会奖以及麻省理工学院-谷歌计算创新奖的部分资助。
Q&A
Q1:WRING去偏见方法和传统投影去偏见方法有什么区别?
A:传统投影去偏见方法通过将偏见信息从模型的表示空间中"投影"剔除来消除偏见,但这会无意间改变模型学到的其他关系,导致消除一种偏见的同时放大另一种偏见,即"打地鼠困境"。WRING则是通过旋转高维空间中与偏见相关的特定坐标,使模型无法区分某一概念下的不同群体,同时保持其他关系不变,从而在减少目标偏见的同时不引入新的偏见。
Q2:WRING方法目前有哪些局限性?
A:目前WRING方法主要适用于对比语言图像预训练(CLIP)类模型,这类模型将图像与语言关联用于搜索或分类任务。对于ChatGPT风格的生成式语言模型,WRING尚未能直接应用,研究团队表示将其扩展到生成式语言模型是下一步的研究方向。
Q3:WRING方法为什么采用后处理方式而不是在训练阶段介入?
A:训练大型视觉语言模型需要消耗大量计算资源和资金,如果在训练阶段修改模型就必须从头开始,成本极高。WRING作为后处理方法,可以直接应用于已训练好的预训练模型,无需额外训练,对模型的干预程度极低,因此更加高效实用。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。