越来越多寻求构建更大AI模型的公司受到高质量训练数据不足的制约。随着科技公司在网络上搜寻更多数据来训练模型,它们可能越来越依赖潜在的敏感用户数据。Google Research团队正在探索新技术,使生成的大语言模型不太可能"记忆"任何此类内容。
大语言模型具有非确定性的输出,这意味着无法准确预测它们会说什么。虽然即使对于相同的输入,输出也会有所不同,但模型有时确实会重现训练数据中的内容——如果使用个人数据进行训练,输出可能违反用户隐私。如果受版权保护的数据进入训练数据(无论是意外还是故意),其在输出中的出现会给开发者带来不同类型的麻烦。差分隐私可以通过在训练阶段引入校准噪声来防止这种记忆。
为模型添加差分隐私在准确性和计算需求方面会带来缺点。直到现在,还没有人费心研究这在多大程度上改变了AI模型的扩展规律。该团队基于模型性能主要受噪声批次比影响的假设开展工作,该比率比较了随机化噪声的量与原始训练数据的大小。
通过运行不同模型大小和噪声批次比的实验,团队建立了对差分隐私扩展规律的基本理解,这是计算预算、隐私预算和数据预算之间的平衡。简而言之,更多噪声会导致较低质量的输出,除非用更高的计算预算(FLOPs)或数据预算(Token)来抵消。该论文详细介绍了私有大语言模型的扩展规律,这可以帮助开发者找到理想的噪声批次比,使模型更加私密。
构建VaultGemma
这项差分隐私工作催生了一个名为VaultGemma的新开放权重Google模型。该模型使用差分隐私来减少记忆的可能性,这可能改变Google在未来AI智能体中构建隐私保护的方式。不过目前,该公司的首个差分隐私模型只是一个实验。
VaultGemma基于Gemma 2基础模型,该模型比Google最新的开放模型系列落后一代。团队使用从初始测试中得出的扩展规律,以最优差分隐私训练VaultGemma。这个模型在整体规模上并不是特别大,只有10亿个参数。然而,Google Research表示VaultGemma的表现与类似规模的非私有模型相似。
该团队希望这项差分隐私扩展规律的工作将帮助其他人有效分配资源来训练私有AI模型。这可能不会改变最大和最强AI模型的运行方式——在超大型通用模型中,性能就是一切。而且无论如何,研究表明差分隐私在较小的大语言模型中效果更好,比如驱动特定AI功能的专用模型。
您现在可以从Hugging Face和Kaggle下载VaultGemma。与其他Gemma模型一样,这个模型具有开放权重,但并非完全开源。虽然Google允许您修改和分发Gemma模型,但您必须同意不将其用于恶意目的,并在任何修改版本中分发Gemma许可证的副本。
Q&A
Q1:VaultGemma是什么?有什么特别之处?
A:VaultGemma是Google发布的首个隐私保护大语言模型,基于Gemma 2基础模型构建。它使用差分隐私技术来减少模型"记忆"训练数据的可能性,从而避免在输出中泄露敏感用户数据或受版权保护的内容。
Q2:差分隐私技术是如何保护隐私的?
A:差分隐私通过在训练阶段引入校准噪声来防止模型记忆训练数据中的具体内容。这样即使模型使用了个人数据或受版权保护的数据进行训练,也不太可能在输出中重现这些敏感信息,从而保护用户隐私。
Q3:在哪里可以获取VaultGemma模型?
A:VaultGemma现在可以从Hugging Face和Kaggle下载。该模型具有开放权重,用户可以修改和分发,但需要同意不用于恶意目的,并在修改版本中包含Gemma许可证副本。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。