机器遗忘技术使AI系统能够"忘记"训练数据中的特定内容,而无需从头重新训练模型,这对于遵守GDPR等隐私法规中的"被遗忘权"、保障AI安全及提升模型质量至关重要。
随着模型处理的数据集规模不断扩大且愈发敏感,机器遗忘的验证工作已从理论层面的理想目标演变为严格的现实需求——开发者必须以数学方式证明隐私保护的有效性。然而,由于审计人员通常无法访问模型内部结构或原始训练数据,只能通过查询模型并分析输出样本来完成验证工作。
双样本检验的局限性
数据科学家和研究人员常用的验证方法之一是双样本检验——一种用于判断两组数据观测值是否来自完全不同的底层分布的统计方法。例如,在验证机器遗忘时,审计人员可能会比较从未接触某条特定记录的模型与据称已"忘记"该记录的模型的输出结果。如果输出结果在规定阈值内存在统计差异,则说明遗忘操作失败。
然而,随着模型规模和复杂度的持续增长,双样本检验等用于机器遗忘审计的统计工具在实施层面愈发困难,其统计效能也随之下降。为了在大规模模型固有的随机噪声中识别出真实违规行为,并达到足够的统计显著性,审计人员需要提取大量样本,这使得实际测试的计算成本极为高昂。
新框架:正则化f散度核测试
为应对这一挑战,我们在AISTATS 2026上提出了正则化f散度核测试(Regularized f-Divergence Kernel Tests)这一全新框架,旨在使机器学习模型的审计更加敏感、灵活和精准。我们从理论上证明,该测试能够针对任意样本量自然控制假阳性率,并且随着可用数据样本数量的增加,假阴性风险能够可靠地收敛至零。
现有方法的不足
评估模型安全性通常需要度量两个复杂数据集之间的距离或散度,不同的应用场景对"距离"的定义天然不同。最大均值差异(MMD)等主流标准工具擅长检测数据中的宏观全局偏移(例如模型系统性地生成比对照组更亮的图像),但往往缺乏捕捉复杂异常所需的特异性。举例而言,如果某人数据的加入只在极特定的提示条件下导致模型生成高度特异的异常输出,而在其他所有样本上分布完全相同,传统的MMD测试可能完全忽略这种局部偏移。
此外,现有大多数测试框架要求研究人员手动进行容易出错的选择,例如针对全局或局部偏移选择最合适的统计量,或调整核带宽、正则化参数等复杂设置。
更重要的是,当用于验证机器学习模型的遗忘效果时,双样本检验本身存在根本性缺陷。即便是从完全相同的数据从头训练的两个模型,也可能产生不同的分布。这会导致假阳性结果,将实际上安全的模型错误标记为遗忘失败。
近期研究还表明,AI模型仅通过调整当前参数永远无法真正"忘记"数据——除非重新追溯原始训练的每一个步骤,否则必然会留下待删除信息的永久痕迹。因此,对于标准的局部遗忘算法而言,实现完美的"再训练等价"从根本上是不可能的,而传统双样本检验总能在"遗忘集"上发现依赖关系。
三样本相对距离测试
我们通过提出相对距离测试来解决上述挑战——该测试衡量的是已遗忘模型在分布上更接近安全再训练模型还是原始的有问题模型。
我们的测试框架如同一套高度自适应的统计工具包,利用f散度使审计人员能够精准定位多种特定类型的数据偏移,包括:KL散度(用于检测整体分布变化)、曲棍球棒散度(与差分隐私的数学基础直接对应)、总变差(用于检测支撑集差异)以及其他多种散度形式。
在高维实际数据上计算这些散度的难度众所周知。为了在不消耗大量算力的前提下使这些复杂优化问题变得可处理,我们采用核正则化方法来高效估计差异。
我们的自适应测试方法能够自动选择最优散度类型及超参数配置,以最大化测试可靠性,完全消除了样本分割的需求。
实验验证
由于所提框架具有通用性,我们在多种问题上进行了实验。评估涵盖扰动均匀分布(合成双样本基准)以及物理数据集中的Expo1D异常检测任务——该领域专注于利用机器学习搜索超越粒子物理标准模型的新物理现象。选用高能物理数据的原因在于,该领域需要世界上最精密的"差异探测器"。其逻辑是:如果该框架能够发现违背物理规律的稀有粒子,那么它同样能够发现AI模型中微小的隐私泄露。
在此基础上,我们将研究重心转向审计差分隐私与评估机器遗忘这两大关键实际应用场景。
实验结果与发现
我们的框架在所有先前基准方法上均达到或超越了其性能,且所需的人工调优工作量显著更少。
实验结果表明,没有任何单一测试能够在所有场景下始终优于其他测试。不同的f散度相当于专用传感器,针对不同类型的局部数据偏移各有所长。通过对多种统计量进行聚合,我们的框架成功捕捉到了标准测试完全遗漏的细微错误和异常。
在隐私审计方面,曲棍球棒散度测试被证明是一种强大而有效的工具。由于它与纯差分隐私的数学基础直接对应,审计人员可以精确控制可接受的数据偏移程度。我们的自适应测试框架仅需少得多的数据样本和超参数调整,即可成功发现隐私违规行为。
在一个典型案例中,我们的框架仅用几千个样本就检测出了稀疏向量技术机制(SVT3)中的违规行为,而DP-Auditorium等已有技术需要数百万个样本才能达到相似的违规检测率。
在机器遗忘评估方面,我们的研究结果表明有必要重新定义评估标准。观察发现,在所评估的近似遗忘方法中,没有任何一种能够符合严格的标准双样本遗忘定义。由于双样本测试仅寻找任何分布差异,它会错误地将完全安全的再训练模型标记为遗忘失败。
相比之下,我们提出的相对三样本测试成功克服了这一缺陷,能够正确且一致地将安全再训练的模型识别为"安全"。在评估近似遗忘算法时,只有随机标签技术通过了评估;而微调、剪枝和选择性突触抑制等其他流行方法,在真正遗忘目标数据方面均被证明效果不足。
总结与展望
我们提出的新框架为检验机器学习模型行为提供了更精确、更自适应且数学基础更为严密的视角。通过利用正则化f散度核测试,研究人员和审计人员现在能够在大量问题和复杂分布偏移场景下,从统计意义上证明模型是否存在不安全行为或数据泄露。
随着该领域的持续发展,从理论层面深入刻画哪种特定散度对其他新型任务最为最优,仍是一个令人期待的研究方向。建立更严格的样本复杂度界限也将是提升审计效率的重要研究课题。
Q&A
Q1:机器遗忘是什么,为什么需要对其进行审计?
A:机器遗忘是指让AI系统"忘记"特定训练数据而无需重新训练模型的技术,主要用于满足GDPR等法规中"被遗忘权"的要求、保障AI安全及提升模型质量。由于审计人员通常无法访问模型内部结构或原始训练数据,需要通过查询模型输出来验证遗忘是否真正发生,因此准确的审计方法至关重要。
Q2:传统双样本检验在机器遗忘验证中存在哪些问题?
A:传统双样本检验存在两大核心问题:一是随着模型规模增大,需要提取大量样本才能达到统计显著性,计算成本极高;二是即使两个模型在完全相同的数据上从头训练,也可能产生不同的分布,导致双样本检验将安全模型错误标记为遗忘失败(假阳性)。此外,研究表明仅调整模型参数永远无法真正"忘记"数据,双样本检验总能找到与遗忘集的依赖关系。
Q3:正则化f散度核测试框架相比现有方法有哪些优势?
A:该框架具有三大核心优势:第一,采用相对三样本测试,通过比较遗忘模型与安全再训练模型及原始模型的距离来判断遗忘是否成功,避免了假阳性问题;第二,自动选择最优散度类型和超参数配置,无需人工调优;第三,所需样本量大幅减少,例如仅用几千个样本就能检测到DP-Auditorium需要数百万样本才能发现的隐私违规行为。
好文章,需要你的鼓励
在基于Chiplet的架构中,可观测性正成为系统设计的关键缺失环节。多位半导体行业专家指出,AI可从硅层遥测数据中挖掘价值,但前提是架构须提供一致的检测手段、近传感器数据压缩及可编程采集能力。专家们强调,多供应商Chiplet生态系统需要标准化、安全的遥测模式,以实现跨芯片、封装和互联域的故障定位,同时保护敏感运营数据。目前,AI在遥测分析阶段已展现出显著价值,但可观测性的扩展本质上仍是架构问题。
这项研究系统比较了四种AI图像分词策略在640000张星系图像上的表现,发现重建质量与物理属性预测能力之间存在根本性解耦,为天文基础模型的分词器选择提供了实验依据。
生命科学企业在全渠道战略和AI平台上投入巨大,但成效往往不尽如人意。问题根源不在于技术本身,而在于组织架构、数据治理和工作方式未能同步演进。许多转型项目止步于试点阶段,原因是各部门数据孤立、职责不清。要实现从传统CRM向智能互动的真正转型,企业需优先建立统一的数据基础和跨团队协作机制,并将AI能力嵌入日常工作流程,而非将其视为独立模块。
阿里Qwen团队研究如何将大模型的规模化训练思路迁移到机器人操作领域,通过统一多机器人表示与38100小时数据预训练,让机器人在陌生场景和陌生机型上也能完成复杂操作任务。