机器遗忘技术使AI系统能够"忘记"训练数据中的特定内容,而无需从头重新训练模型,这对于遵守GDPR等隐私法规中的"被遗忘权"、保障AI安全及提升模型质量至关重要。
随着模型处理的数据集规模不断扩大且愈发敏感,机器遗忘的验证工作已从理论层面的理想目标演变为严格的现实需求——开发者必须以数学方式证明隐私保护的有效性。然而,由于审计人员通常无法访问模型内部结构或原始训练数据,只能通过查询模型并分析输出样本来完成验证工作。
双样本检验的局限性
数据科学家和研究人员常用的验证方法之一是双样本检验——一种用于判断两组数据观测值是否来自完全不同的底层分布的统计方法。例如,在验证机器遗忘时,审计人员可能会比较从未接触某条特定记录的模型与据称已"忘记"该记录的模型的输出结果。如果输出结果在规定阈值内存在统计差异,则说明遗忘操作失败。
然而,随着模型规模和复杂度的持续增长,双样本检验等用于机器遗忘审计的统计工具在实施层面愈发困难,其统计效能也随之下降。为了在大规模模型固有的随机噪声中识别出真实违规行为,并达到足够的统计显著性,审计人员需要提取大量样本,这使得实际测试的计算成本极为高昂。
新框架:正则化f散度核测试
为应对这一挑战,我们在AISTATS 2026上提出了正则化f散度核测试(Regularized f-Divergence Kernel Tests)这一全新框架,旨在使机器学习模型的审计更加敏感、灵活和精准。我们从理论上证明,该测试能够针对任意样本量自然控制假阳性率,并且随着可用数据样本数量的增加,假阴性风险能够可靠地收敛至零。
现有方法的不足
评估模型安全性通常需要度量两个复杂数据集之间的距离或散度,不同的应用场景对"距离"的定义天然不同。最大均值差异(MMD)等主流标准工具擅长检测数据中的宏观全局偏移(例如模型系统性地生成比对照组更亮的图像),但往往缺乏捕捉复杂异常所需的特异性。举例而言,如果某人数据的加入只在极特定的提示条件下导致模型生成高度特异的异常输出,而在其他所有样本上分布完全相同,传统的MMD测试可能完全忽略这种局部偏移。
此外,现有大多数测试框架要求研究人员手动进行容易出错的选择,例如针对全局或局部偏移选择最合适的统计量,或调整核带宽、正则化参数等复杂设置。
更重要的是,当用于验证机器学习模型的遗忘效果时,双样本检验本身存在根本性缺陷。即便是从完全相同的数据从头训练的两个模型,也可能产生不同的分布。这会导致假阳性结果,将实际上安全的模型错误标记为遗忘失败。
近期研究还表明,AI模型仅通过调整当前参数永远无法真正"忘记"数据——除非重新追溯原始训练的每一个步骤,否则必然会留下待删除信息的永久痕迹。因此,对于标准的局部遗忘算法而言,实现完美的"再训练等价"从根本上是不可能的,而传统双样本检验总能在"遗忘集"上发现依赖关系。
三样本相对距离测试
我们通过提出相对距离测试来解决上述挑战——该测试衡量的是已遗忘模型在分布上更接近安全再训练模型还是原始的有问题模型。
我们的测试框架如同一套高度自适应的统计工具包,利用f散度使审计人员能够精准定位多种特定类型的数据偏移,包括:KL散度(用于检测整体分布变化)、曲棍球棒散度(与差分隐私的数学基础直接对应)、总变差(用于检测支撑集差异)以及其他多种散度形式。
在高维实际数据上计算这些散度的难度众所周知。为了在不消耗大量算力的前提下使这些复杂优化问题变得可处理,我们采用核正则化方法来高效估计差异。
我们的自适应测试方法能够自动选择最优散度类型及超参数配置,以最大化测试可靠性,完全消除了样本分割的需求。
实验验证
由于所提框架具有通用性,我们在多种问题上进行了实验。评估涵盖扰动均匀分布(合成双样本基准)以及物理数据集中的Expo1D异常检测任务——该领域专注于利用机器学习搜索超越粒子物理标准模型的新物理现象。选用高能物理数据的原因在于,该领域需要世界上最精密的"差异探测器"。其逻辑是:如果该框架能够发现违背物理规律的稀有粒子,那么它同样能够发现AI模型中微小的隐私泄露。
在此基础上,我们将研究重心转向审计差分隐私与评估机器遗忘这两大关键实际应用场景。
实验结果与发现
我们的框架在所有先前基准方法上均达到或超越了其性能,且所需的人工调优工作量显著更少。
实验结果表明,没有任何单一测试能够在所有场景下始终优于其他测试。不同的f散度相当于专用传感器,针对不同类型的局部数据偏移各有所长。通过对多种统计量进行聚合,我们的框架成功捕捉到了标准测试完全遗漏的细微错误和异常。
在隐私审计方面,曲棍球棒散度测试被证明是一种强大而有效的工具。由于它与纯差分隐私的数学基础直接对应,审计人员可以精确控制可接受的数据偏移程度。我们的自适应测试框架仅需少得多的数据样本和超参数调整,即可成功发现隐私违规行为。
在一个典型案例中,我们的框架仅用几千个样本就检测出了稀疏向量技术机制(SVT3)中的违规行为,而DP-Auditorium等已有技术需要数百万个样本才能达到相似的违规检测率。
在机器遗忘评估方面,我们的研究结果表明有必要重新定义评估标准。观察发现,在所评估的近似遗忘方法中,没有任何一种能够符合严格的标准双样本遗忘定义。由于双样本测试仅寻找任何分布差异,它会错误地将完全安全的再训练模型标记为遗忘失败。
相比之下,我们提出的相对三样本测试成功克服了这一缺陷,能够正确且一致地将安全再训练的模型识别为"安全"。在评估近似遗忘算法时,只有随机标签技术通过了评估;而微调、剪枝和选择性突触抑制等其他流行方法,在真正遗忘目标数据方面均被证明效果不足。
总结与展望
我们提出的新框架为检验机器学习模型行为提供了更精确、更自适应且数学基础更为严密的视角。通过利用正则化f散度核测试,研究人员和审计人员现在能够在大量问题和复杂分布偏移场景下,从统计意义上证明模型是否存在不安全行为或数据泄露。
随着该领域的持续发展,从理论层面深入刻画哪种特定散度对其他新型任务最为最优,仍是一个令人期待的研究方向。建立更严格的样本复杂度界限也将是提升审计效率的重要研究课题。
Q&A
Q1:机器遗忘是什么,为什么需要对其进行审计?
A:机器遗忘是指让AI系统"忘记"特定训练数据而无需重新训练模型的技术,主要用于满足GDPR等法规中"被遗忘权"的要求、保障AI安全及提升模型质量。由于审计人员通常无法访问模型内部结构或原始训练数据,需要通过查询模型输出来验证遗忘是否真正发生,因此准确的审计方法至关重要。
Q2:传统双样本检验在机器遗忘验证中存在哪些问题?
A:传统双样本检验存在两大核心问题:一是随着模型规模增大,需要提取大量样本才能达到统计显著性,计算成本极高;二是即使两个模型在完全相同的数据上从头训练,也可能产生不同的分布,导致双样本检验将安全模型错误标记为遗忘失败(假阳性)。此外,研究表明仅调整模型参数永远无法真正"忘记"数据,双样本检验总能找到与遗忘集的依赖关系。
Q3:正则化f散度核测试框架相比现有方法有哪些优势?
A:该框架具有三大核心优势:第一,采用相对三样本测试,通过比较遗忘模型与安全再训练模型及原始模型的距离来判断遗忘是否成功,避免了假阳性问题;第二,自动选择最优散度类型和超参数配置,无需人工调优;第三,所需样本量大幅减少,例如仅用几千个样本就能检测到DP-Auditorium需要数百万样本才能发现的隐私违规行为。
好文章,需要你的鼓励
Google Cloud产品管理副总裁Michael Gerstenhaber近日接受采访,详解企业部署AI智能体面临的核心治理难题。他指出,智能体的安全管控须借鉴人类员工管理逻辑,实现"默认安全"。Google Cloud通过智能体网关、身份权限管理、分布式追踪及Model Armor等工具构建纵深防御体系。Gerstenhaber还提出"弹性智能"概念,认为持续学习的智能体无需退役,可在运行时动态优化行为,从而帮助企业实现运营能力的弹性扩展。
OpenSkill是一套让AI代理无需人工监督即可自主成长的框架,通过从互联网获取知识、自建虚拟考题反复练习,实现真正的开放世界自我演化。
根据Ookla发布的全球Wi-Fi状态报告,Wi-Fi 7正在全球范围内逐步推进,但整体渗透率仍不足2%。新加坡以25%的Wi-Fi 7用户占比位居全球首位,得益于政府与运营商的联合推动。5 GHz频段依然是全球主流,6 GHz频段全球占比仅1.7%。欧洲6 GHz利用率更低至1.6%,各国间存在显著差异。AI基础设施需求推高半导体成本,也对CPE和智能手机制造商形成压力。
论文研究了AI评委同时优化多个评判维度时的两大失败原因:梯度稀释与指令干扰,为多目标提示词优化提供了系统性诊断框架。