越来越多寻求构建更大AI模型的公司受到高质量训练数据不足的制约。随着科技公司在网络上搜寻更多数据来训练模型,它们可能越来越依赖潜在的敏感用户数据。Google Research团队正在探索新技术,使生成的大语言模型不太可能"记忆"任何此类内容。
大语言模型具有非确定性的输出,这意味着无法准确预测它们会说什么。虽然即使对于相同的输入,输出也会有所不同,但模型有时确实会重现训练数据中的内容——如果使用个人数据进行训练,输出可能违反用户隐私。如果受版权保护的数据进入训练数据(无论是意外还是故意),其在输出中的出现会给开发者带来不同类型的麻烦。差分隐私可以通过在训练阶段引入校准噪声来防止这种记忆。
为模型添加差分隐私在准确性和计算需求方面会带来缺点。直到现在,还没有人费心研究这在多大程度上改变了AI模型的扩展规律。该团队基于模型性能主要受噪声批次比影响的假设开展工作,该比率比较了随机化噪声的量与原始训练数据的大小。
通过运行不同模型大小和噪声批次比的实验,团队建立了对差分隐私扩展规律的基本理解,这是计算预算、隐私预算和数据预算之间的平衡。简而言之,更多噪声会导致较低质量的输出,除非用更高的计算预算(FLOPs)或数据预算(Token)来抵消。该论文详细介绍了私有大语言模型的扩展规律,这可以帮助开发者找到理想的噪声批次比,使模型更加私密。
构建VaultGemma
这项差分隐私工作催生了一个名为VaultGemma的新开放权重Google模型。该模型使用差分隐私来减少记忆的可能性,这可能改变Google在未来AI智能体中构建隐私保护的方式。不过目前,该公司的首个差分隐私模型只是一个实验。
VaultGemma基于Gemma 2基础模型,该模型比Google最新的开放模型系列落后一代。团队使用从初始测试中得出的扩展规律,以最优差分隐私训练VaultGemma。这个模型在整体规模上并不是特别大,只有10亿个参数。然而,Google Research表示VaultGemma的表现与类似规模的非私有模型相似。
该团队希望这项差分隐私扩展规律的工作将帮助其他人有效分配资源来训练私有AI模型。这可能不会改变最大和最强AI模型的运行方式——在超大型通用模型中,性能就是一切。而且无论如何,研究表明差分隐私在较小的大语言模型中效果更好,比如驱动特定AI功能的专用模型。
您现在可以从Hugging Face和Kaggle下载VaultGemma。与其他Gemma模型一样,这个模型具有开放权重,但并非完全开源。虽然Google允许您修改和分发Gemma模型,但您必须同意不将其用于恶意目的,并在任何修改版本中分发Gemma许可证的副本。
Q&A
Q1:VaultGemma是什么?有什么特别之处?
A:VaultGemma是Google发布的首个隐私保护大语言模型,基于Gemma 2基础模型构建。它使用差分隐私技术来减少模型"记忆"训练数据的可能性,从而避免在输出中泄露敏感用户数据或受版权保护的内容。
Q2:差分隐私技术是如何保护隐私的?
A:差分隐私通过在训练阶段引入校准噪声来防止模型记忆训练数据中的具体内容。这样即使模型使用了个人数据或受版权保护的数据进行训练,也不太可能在输出中重现这些敏感信息,从而保护用户隐私。
Q3:在哪里可以获取VaultGemma模型?
A:VaultGemma现在可以从Hugging Face和Kaggle下载。该模型具有开放权重,用户可以修改和分发,但需要同意不用于恶意目的,并在修改版本中包含Gemma许可证副本。
好文章,需要你的鼓励
Luminary Cloud宣布完成7200万美元B轮融资,专注开发"物理AI"技术。该公司云原生平台可将仿真速度提升100倍,利用物理信息模型实时预测汽车、飞机等产品性能。公司推出针对特定行业的预训练模型,包括与本田合作的汽车设计模型和与Otto航空合作的飞机开发模型。融资由西门子风投领投,将用于扩大研发团队和市场销售。
香港中文大学联合上海AI实验室推出Dispider系统,首次实现AI视频"边看边聊"能力。通过创新的三分式架构设计,将感知、决策、反应功能独立分离,让AI能像人类一样在观看视频过程中进行实时交流,在StreamingBench测试中显著超越现有系统,为教育、娱乐、医疗、安防等领域的视频AI应用开启新可能。
伦敦量子动态科技公司宣布交付业界首台采用传统半导体制造工艺的量子计算机。该系统已安装在英国国家量子计算中心,使用标准化300毫米硅晶圆,是首台自旋量子比特计算机。系统采用CMOS技术,占地约三个19英寸服务器机架,具备数据中心友好特性。公司开发的可扩展瓦片架构支持大规模生产,未来可扩展至每个量子处理单元数百万量子比特,为商业化应用奠定基础。
Atla公司发布Selene Mini,这是一个仅有80亿参数的AI评估模型,却在11个基准测试中全面超越GPT-4o-mini。通过精心的数据筛选和创新训练策略,该模型不仅能准确评判文本质量,还能在医疗、金融等专业领域表现出色。研究团队将模型完全开源,为AI评估技术的普及和发展做出贡献。