Google发布首个隐私保护大语言模型VaultGemma

谷歌研究团队推出VaultGemma，这是其首个采用差分隐私技术的大语言模型。该模型基于Gemma 2构建，拥有10亿参数，通过在训练阶段引入校准噪声来防止模型"记忆"敏感用户数据。研究团队建立了差分隐私缩放定律，平衡计算预算、隐私预算和数据预算。尽管添加差分隐私会影响准确性，但VaultGemma在性能上与同规模非私有模型相当。该模型现已在Hugging Face和Kaggle平台开放下载。

越来越多寻求构建更大AI模型的公司受到高质量训练数据不足的制约。随着科技公司在网络上搜寻更多数据来训练模型，它们可能越来越依赖潜在的敏感用户数据。Google Research团队正在探索新技术，使生成的大语言模型不太可能"记忆"任何此类内容。

大语言模型具有非确定性的输出，这意味着无法准确预测它们会说什么。虽然即使对于相同的输入，输出也会有所不同，但模型有时确实会重现训练数据中的内容——如果使用个人数据进行训练，输出可能违反用户隐私。如果受版权保护的数据进入训练数据（无论是意外还是故意），其在输出中的出现会给开发者带来不同类型的麻烦。差分隐私可以通过在训练阶段引入校准噪声来防止这种记忆。

为模型添加差分隐私在准确性和计算需求方面会带来缺点。直到现在，还没有人费心研究这在多大程度上改变了AI模型的扩展规律。该团队基于模型性能主要受噪声批次比影响的假设开展工作，该比率比较了随机化噪声的量与原始训练数据的大小。

通过运行不同模型大小和噪声批次比的实验，团队建立了对差分隐私扩展规律的基本理解，这是计算预算、隐私预算和数据预算之间的平衡。简而言之，更多噪声会导致较低质量的输出，除非用更高的计算预算（FLOPs）或数据预算（Token）来抵消。该论文详细介绍了私有大语言模型的扩展规律，这可以帮助开发者找到理想的噪声批次比，使模型更加私密。

构建VaultGemma

这项差分隐私工作催生了一个名为VaultGemma的新开放权重Google模型。该模型使用差分隐私来减少记忆的可能性，这可能改变Google在未来AI智能体中构建隐私保护的方式。不过目前，该公司的首个差分隐私模型只是一个实验。

VaultGemma基于Gemma 2基础模型，该模型比Google最新的开放模型系列落后一代。团队使用从初始测试中得出的扩展规律，以最优差分隐私训练VaultGemma。这个模型在整体规模上并不是特别大，只有10亿个参数。然而，Google Research表示VaultGemma的表现与类似规模的非私有模型相似。

该团队希望这项差分隐私扩展规律的工作将帮助其他人有效分配资源来训练私有AI模型。这可能不会改变最大和最强AI模型的运行方式——在超大型通用模型中，性能就是一切。而且无论如何，研究表明差分隐私在较小的大语言模型中效果更好，比如驱动特定AI功能的专用模型。

您现在可以从Hugging Face和Kaggle下载VaultGemma。与其他Gemma模型一样，这个模型具有开放权重，但并非完全开源。虽然Google允许您修改和分发Gemma模型，但您必须同意不将其用于恶意目的，并在任何修改版本中分发Gemma许可证的副本。

Q&A

Q1：VaultGemma是什么？有什么特别之处？

A：VaultGemma是Google发布的首个隐私保护大语言模型，基于Gemma 2基础模型构建。它使用差分隐私技术来减少模型"记忆"训练数据的可能性，从而避免在输出中泄露敏感用户数据或受版权保护的内容。

Q2：差分隐私技术是如何保护隐私的？

A：差分隐私通过在训练阶段引入校准噪声来防止模型记忆训练数据中的具体内容。这样即使模型使用了个人数据或受版权保护的数据进行训练，也不太可能在输出中重现这些敏感信息，从而保护用户隐私。

Q3：在哪里可以获取VaultGemma模型？

A：VaultGemma现在可以从Hugging Face和Kaggle下载。该模型具有开放权重，用户可以修改和分发，但需要同意不用于恶意目的，并在修改版本中包含Gemma许可证副本。

来源：Arstechnica

0赞

好文章，需要你的鼓励

Google发布首个隐私保护大语言模型VaultGemma

来源：Arstechnica

2025

09/16

08:00

分享

点赞

LangChain核心库曝出严重漏洞，AI智能体机密信息面临泄露风险

Mill如何与亚马逊和全食超市达成合作协议

TechCrunch创业大赛中的9家顶尖生物技术初创公司

2025年印度科技领域十大重要发展

中科大发布Live Avatar：AI数字人无限聊天不翻车

从软件定义汽车到AI驱动质控：Testin云测助力车机测试数智化价值落地

无需Linux即可运行自由开源软件

超越 SEO：AI 引擎优化如何改变在线可见性格局

新Mac必装应用：五款提升工作效率的神器推荐

DXC蒲公英计划：为神经多样性IT专业人士赋能

AMD Strix Halo与Nvidia DGX Spark：哪款AI工作站更胜一筹？

类人机器人投资热潮涌现但商业化仍需数十年

OpenAI发布GPT-5-Codex升级版本提升编程智能体性能

HPE时隔7年再破90亿美元季度营收创新高

爱立信推出首个企业级5G智能体AI解决方案

甲骨文云服务或在本十年内媲美AWS

Google推出VaultGemma模型，引领隐私保护AI新标准

学者用AI智能体模拟美联储委员会会议

AI聊天机器人正悄然引发隐私危机

数字孪生技术为网络安全防御带来预测优势

SK海力士完成HBM4开发，为下一代GPU量产做准备

可重构计算：破解数据中心复杂性难题

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: