DiffusionGemma：文本生成速度提升4倍的全新扩散式大语言模型

谷歌推出实验性开源模型DiffusionGemma，采用文本扩散技术，突破传统自回归大模型逐词生成的限制，改为同时生成256个token的完整文本块。该模型基于Gemma 4架构，参数规模26B（MoE），推理时仅激活3.8B参数，在单张NVIDIA H100上可达每秒1000+tokens，速度最高提升4倍。支持双向注意力机制，适合代码补全、行内编辑等场景，已在Hugging Face开放下载。

今天，谷歌正式推出DiffusionGemma——一个专注于探索文本扩散技术的实验性开源模型。该模型基于Apache 2.0协议发布，采用拥有260亿参数的混合专家架构（MoE），彻底突破了传统自回归大语言模型逐Token顺序生成的局限，转而实现整块文本的并行生成，在GPU上的文本生成速度最高可提升4倍。

DiffusionGemma以谷歌行业领先的Gemma 4系列模型为基础，融合前沿的Gemini Diffusion研究成果，并集成了专为最大化生成速度而设计的全新扩散头模块。目前，自回归架构的Gemma 4模型仍是高质量生产场景的主流选择，而DiffusionGemma则主要面向研究人员和开发者，适用于对速度敏感的本地交互工作流，例如行内编辑、快速迭代以及非线性文本结构的生成。

为开发者释放全新价值

构建实时交互式AI应用的开发者，常常面临本地推理延迟瓶颈的挑战。DiffusionGemma从根本上解决了这一问题，但也伴随一些值得关注的权衡取舍：

极速推理能力：通过将解码瓶颈从内存带宽转移至计算单元，DiffusionGemma在专用GPU上的Token输出速度最高可达4倍提升（单张NVIDIA H100每秒可生成超过1000个Token，NVIDIA GeForce RTX 5090每秒超过700个Token）。

亲民的硬件门槛：作为一个总参数量260亿的混合专家模型，DiffusionGemma在推理时仅激活38亿参数，量化后可在18GB显存的高端消费级GPU上流畅运行。

双向注意力机制：模型在每次前向传播中并行生成256个Token，每个Token均可关注所有其他Token，这在行内编辑、代码填充、氨基酸序列分析和数学图表等非线性场景中具有显著优势。

智能自纠错能力：模型可对自身输出进行迭代优化，一次性评估整个文本块，实时修正错误。

实验阶段说明与生产建议：由于DiffusionGemma优先追求速度和并行布局生成，整体输出质量低于标准版Gemma 4。对于质量要求较高的应用场景，建议继续使用标准Gemma 4。

通过微调，可以进一步提升DiffusionGemma在特定任务上的表现。例如，Unsloth对DiffusionGemma进行微调后，使其能够求解数独——这是一项自回归模型因每个Token依赖未来Token而难以胜任的任务。DiffusionGemma的双向注意力机制则让这一问题迎刃而解。

为什么选择扩散方式生成文本？

虽然AI研究界探索基于扩散的文本生成技术已有多年，但将其应用于大型模型始终是一大难题。DiffusionGemma的突破在于改变了模型对硬件资源的利用方式。

大多数大语言模型的工作方式类似打字机，从左到右逐Token生成文本。在云端环境中，这种方式效率尚可，因为服务器可以将数千个用户请求批量处理，共享硬件负载。但在单用户本地运行时，这种逐词生成的方式会造成专用GPU或TPU大量闲置——大部分时间都在等待"下一次按键"。

DiffusionGemma从根本上扭转了这一低效局面。它不再逐词顺序预测，而是同时生成一整段包含256个Token的文本段落。通过一次性向处理器提交更大量的计算任务，DiffusionGemma能够充分释放硬件性能。这相当于将模型推理从单台逐字打字的打字机，升级为可同时印刷整块文字的高速印刷机。

这意味着DiffusionGemma的速度优势主要体现在本地或低并发推理场景。在高并发云服务环境中，自回归模型可以通过请求批处理高效利用算力，DiffusionGemma的并行解码优势会递减，甚至可能带来更高的服务成本。其吞吐量优势在单个加速器上的中小批次场景中最为突出。

与AI图像生成模型从随机噪声出发、迭代优化至清晰图像的过程类似，DiffusionGemma将这一思路应用于文本生成：

初始画布：模型从一块随机占位符Token组成的"画布"开始。

迭代精炼：模型多次扫描，逐步确定正确的Token，并将其作为上下文线索来优化其余部分。

最终收敛：文本逐渐收敛为高质量输出内容。

由于模型在生成过程中可以处理整段文本，它能够解锁新的行为模式，例如精准闭合复杂的Markdown格式标记，或近乎实时地生成和渲染代码。

即刻上手，探索无限可能

下载模型权重：现已可在Hugging Face上获取实验性模型权重（基于宽松的Apache 2.0协议发布）。

集成与学习：查阅DiffusionGemma开发者指南，或深入阅读《DiffusionGemma可视化指南》，全面理解其底层运行机制。

使用您熟悉的开发工具：可通过MLX、vLLM（由Red Hat提供集成支持）以及Hugging Face Transformers高效部署模型。如需快速实验，官方提供了基于Hackable Diffusion的微调教程，该工具是一个为可组合性而设计的模块化JAX工具箱。同时也支持通过Unsloth和NVIDIA NeMo进行微调，llama.cpp的官方支持也即将到来。

优化硬件性能：谷歌与NVIDIA深度合作，覆盖其全系硬件，确保消费级设备（量化适配GeForce RTX 5090和4090 GPU）与企业级系统（Hopper和Blackwell架构，支持高级NVFP4内核）均可获得最佳体验，包括面向本地桌面部署的NVIDIA DGX Spark、DGX Station，以及面向AI专业人士的RTX PRO。原生支持NVFP4（4位浮点数）格式，可在接近无损精度的前提下大幅加速计算吞吐量。

灵活运行方式：可在本地桌面专用GPU上运行，也可通过Gemini企业智能体平台Model Garden或NVIDIA NIM在云端部署使用。

Q&A

Q1：DiffusionGemma和普通Gemma 4模型有什么区别？

A：DiffusionGemma是基于Gemma 4架构的实验性扩散式文本生成模型，核心区别在于生成方式。普通Gemma 4采用自回归方式逐Token顺序生成文本，质量更高，适合生产环境。DiffusionGemma则通过并行生成256个Token的方式，在GPU上实现最高4倍的速度提升，但整体输出质量低于标准Gemma 4，更适合对速度敏感的本地交互场景，如行内编辑和快速迭代。

Q2：DiffusionGemma对硬件有什么要求？

A：DiffusionGemma是一个260亿参数的混合专家模型，推理时仅激活38亿参数，量化后可在18GB显存的高端消费级GPU上运行，如NVIDIA GeForce RTX 5090（每秒700+个Token）和RTX 4090。企业级方面，支持Hopper和Blackwell架构，在单张NVIDIA H100上可达每秒1000+个Token。此外，NVIDIA DGX Spark、DGX Station及RTX PRO均已获官方优化支持。

Q3：DiffusionGemma的文本扩散生成原理是什么？

A：DiffusionGemma借鉴了AI图像生成的扩散思路，将其应用于文本。生成过程分三步：首先用随机占位符Token填充一个"画布"；然后模型多次迭代扫描，逐步锁定正确Token，并以已确定的内容为上下文线索优化其余部分；最终文本收敛为高质量输出。由于整段256个Token同时处理，模型具备双向注意力能力，可实现代码填充、数独求解等自回归模型难以完成的非线性任务。

来源：Google DeepMind

0赞

好文章，需要你的鼓励

DiffusionGemma：文本生成速度提升4倍的全新扩散式大语言模型

来源：Google DeepMind

2026

06/11

15:43

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

NVIDIA加速Google DeepMind的DiffusionGemma本地AI推理

从122TB QLC到本土端到端能力，Solidigm用长期主义服务中国客户

YouTube Music重新设计界面，搜索功能移至Android与iOS底部导航栏

Gemini应用新增谷歌商家资料整合与商业笔记本功能

AI深度投入企业每月人均AI支出达7500美元

Chips&Media向Ambarella授权最新一代视频编解码器IP，深化全球边缘与物理AI市场战略合作

Neura Robotics完成14亿美元C轮融资，加速构建实体AI平台

机器遗忘审计新框架：用正则化f散度核测试提升AI隐私验证效率

Gemini应用出现局部服务中断故障

自动驾驶卡车公司Einride正式登陆纳斯达克

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会