DiffusionGemma发布:本地AI推理速度提升4倍

Google DeepMind推出Gemma 4开源模型家族新成员DiffusionGemma,采用类似图像生成的扩散机制,能并行生成整块文本,而非逐个token线性输出。该模型为MoE架构,总参数260亿,推理时仅激活38亿,可在高端消费级GPU上运行。测试显示,RTX 5090可达约700 tokens/秒,H100可突破1000 tokens/秒,约为同规模自回归模型的4倍。该模型已在Hugging Face以Apache 2.0协议开放下载。

谷歌 DeepMind 近日发布了 Gemma 4 开源模型家族的全新成员,但这款名为 DiffusionGemma 的模型与同系列其他产品存在本质区别。DiffusionGemma 不像大多数 AI 模型那样以线性方式逐步生成内容,而是能够并行生成整段文本。谷歌表示,这一特性使其在本地硬件(如 Nvidia DGX 或普通游戏显卡)上运行时速度更快、效率更高。

与自回归模型的本质区别

目前大多数 AI 模型采用自回归设计,即从左到右逐个 Token 生成文本。DiffusionGemma 的工作方式则更接近图像生成模型——先从噪声状态出发,再通过去噪过程生成目标内容。该模型在整个文本画布上设置一系列占位 Token,多次迭代后逐步生成最可能的 Token,并利用这些结果持续优化其他位置的预测。最终,模型将所有 Token 输出汇聚为一个完整的文本块,也就是经过"去噪"处理后的文本画布。

DiffusionGemma 在谷歌开源模型中体量相对较大,采用混合专家(MoE)架构,总参数量达 260 亿,但推理时仅激活 38 亿参数。这意味着它可以在 18GB 显存的高端 GPU 上运行。在 RTX 5090 的测试中,DiffusionGemma 的输出速度约为每秒 700 个 Token;配合单张 Nvidia H100 AI 加速卡,速度更可突破每秒 1000 个 Token。这大约是同等规模自回归 Gemma 模型输出速度的四倍。

并行生成的优势场景

DiffusionGemma 的文本生成方式将性能瓶颈从内存带宽转移至计算能力,每次可并行生成最多 256 个 Token。谷歌表示,这在内联编辑、分子序列分析和数学图形处理等非线性任务中带来了显著提升。以数独谜题为例,DiffusionGemma 被调优后能够有效求解此类问题——这对标准自回归 AI 模型来说极具挑战性,因为每个 Token 都依赖于后续 Token 的信息。DiffusionGemma 能够对大量 Token 进行持续自我校正,从而大幅降低了这类任务的难度。

本地高效运行的多种路径

既然扩散式方法速度更快,为何谷歌没有将其用于云端的大型 Gemini 模型?谷歌曾对此进行过探索,但文本扩散存在若干局限,其中包括较高的错误率。在图像扩散模型中,单个像素预测失误不会让整张图片失去价值,但语言是离散的。文本中出现同等级别的错误,可能导致一整段 Token 毫无意义,不得不重新生成。此外,当目标输出仅有少量 Token 时,扩散模型也会造成资源浪费——为了最终得出五个 Token,它需要完成大量并行运算,而自回归模型只需五步即可完成同样的工作。

总体而言,DiffusionGemma 的能力与其他 Gemma 模型相当,但速度更快。

在云端场景下,自回归模型可以将大量来自不同用户的计算任务打包处理,持续高效地输出 Token,加之云端系统采用的高带宽内存(HBM)具备极高的数据传输效率,因此自回归模型在云端更具优势。

相比之下,本地 AI 推理由于内存带宽较低且存在空闲时间,容易产生计算资源浪费。扩散模型能够更充分地利用可用算力,但这并非提升效率的唯一方式。谷歌近期还开始部署多 Token 预测(MTP)草稿器,利用闲置的计算资源预测可能的 Token 以提升速度,但扩散模型的速度表现仍优于 MTP 版本的 Gemma 模型。

开放下载与硬件优化

谷歌强调,DiffusionGemma 目前仍处于实验阶段,但与所有第四代 Gemma 模型一样采用 Apache 2.0 许可协议开放使用。用户现已可从 Hugging Face 下载模型权重。谷歌表示,其与 Nvidia 合作确保 DiffusionGemma 针对多种硬件配置进行了优化,涵盖高端 RTX GPU(量化版本)以及 H100、DGX Spark 平台等企业级系统。

Q&A

Q1:DiffusionGemma 和普通 Gemma 模型有什么区别?

A:DiffusionGemma 采用扩散式生成方式,能够并行生成整段文本,而普通 Gemma 模型是自回归模型,需要逐个 Token 依次生成。这使得 DiffusionGemma 在本地硬件上的推理速度约为同规模自回归模型的四倍,在 RTX 5090 上可达每秒约 700 个 Token,配合 H100 可超过每秒 1000 个 Token。

Q2:DiffusionGemma 对硬件配置有什么要求?

A:DiffusionGemma 是一个混合专家(MoE)架构模型,总参数量 260 亿,但推理时仅激活 38 亿参数,所需显存约为 18GB,高端消费级 GPU 即可运行。谷歌与 Nvidia 合作对多种硬件进行了优化,包括支持量化的高端 RTX 系列显卡,以及 H100、DGX Spark 等企业级加速平台。

Q3:为什么谷歌不把 DiffusionGemma 的扩散方案用在云端 Gemini 模型上?

A:扩散式文本生成存在一定局限:错误率相对较高,一旦某段 Token 预测出错,可能导致整段内容无效需重新生成;且在输出内容较短时,并行计算会造成资源浪费。云端模型可通过批量处理多用户任务和高带宽内存弥补自回归模型的不足,因此扩散方案目前更适合本地推理场景。

来源:Arstechnica

0赞

好文章,需要你的鼓励

2026

06/11

13:49

分享

点赞

邮件订阅