NVIDIA加速Google DeepMind的DiffusionGemma本地AI推理

谷歌DeepMind发布了实验性开源模型DiffusionGemma，采用并行扩散方式生成文本，每步可同时处理最多256个token，而非逐词生成。NVIDIA对其进行了深度优化，使其在GeForce RTX GPU、RTX PRO工作站及DGX Spark等设备上实现更高性能。在单张H100 GPU上可达1000 tokens/秒，比同等自回归模型快约4倍。该模型基于Gemma 4架构，采用Apache 2.0开源协议，支持Hugging Face、vLLM等主流框架。

今日，Google DeepMind正式发布DiffusionGemma——一款专为超高速文本生成而构建的实验性开放模型。NVIDIA已对DiffusionGemma进行深度优化，使其能够在NVIDIA GeForce RTX GPU、NVIDIA RTX PRO平台以及NVIDIA DGX Spark系统上以更快速度运行，覆盖从本地PC到云端的全场景部署。

与传统逐词生成文本的方式不同，DiffusionGemma能够并行生成多个词语，一次性输出完整文本块，为开发者、研究人员和AI爱好者日常运行的单用户工作负载开辟了一条全新的低延迟路径。

新模型的主要特性包括：

并行生成：DiffusionGemma每步可同时对最多256个Token进行去噪处理，而非逐个预测。

基于Gemma 4构建：DiffusionGemma构建于Gemma 4之上，这是一个拥有260亿参数的混合专家模型，每步仅激活38亿个参数，将扩散头与Google Gemma 4架构深度融合。

最高4倍性能提升：这一性能跃升意味着在本地硬件上实现快速文本生成——而这正是单用户生成场景中传统方案最容易遭遇瓶颈的地方。

开放与本地化：DiffusionGemma采用宽松的Apache 2.0许可证开放权重，可完全运行于RTX和DGX Spark设备上，无需云端依赖，无需按Token计费，并从发布第一天起即获得Hugging Face Transformers、vLLM和Unsloth的支持。

从自回归到扩散：一种全新的文本生成范式

目前主流的大语言模型几乎都采用自回归方式——即逐个Token生成文本，每个新词都依赖于前一个词。这种串行处理方式，正是交互式AI给人"正在打字"感觉的根本原因。

DiffusionGemma走了一条截然不同的路。基于Gemma 4 26B混合专家架构，它借鉴扩散模型生成图像的方式来生成文本：从噪声出发，一次性对整个文本块进行精炼。每一步并行处理最多256个Token，而无需逐个输出并等待下一个计算结果。

这使得该模型以"块"为单位进行思考，而非顺序推进。对于延迟敏感的单用户场景——例如交互式对话、智能体循环或需要规划与执行的设备端助手——这种并行性带来的响应速度，足以跟上开发者思考与迭代的节奏。

为何GPU天然适配扩散式文本生成

逐个Token生成文本在本质上是一个受内存带宽制约的问题——传统大语言模型将大量时间消耗在等待内存读写上，而非实际的数学运算，导致大量算力被白白浪费。

扩散方式彻底改变了这一局面。将完整的256个Token组成的文本块并行送入Transformer进行处理，是一种受计算能力制约的工作负载——而这正是NVIDIA GPU的强项所在。NVIDIA Tensor Core加速密集的并行数学运算，CUDA软件栈使模型从第一天起就能高效运行，无需专项调优。简而言之，该模型的设计与GPU的优势高度契合。

这一点在实际数据中得到了充分体现：DiffusionGemma在单颗NVIDIA H100 Tensor Core GPU上可实现每秒1000个Token的生成速度，在NVIDIA DGX Spark上可达每秒150个Token，并在NVIDIA DGX Station上实现最快的本地推理——在相同单用户场景下，比同等规模的自回归模型快约4倍。

这一优势在NVIDIA全系产品线上均有体现：

本地部署于NVIDIA DGX Spark桌面个人AI超级计算机，搭载具备128GB统一内存的NVIDIA GB10 Grace Blackwell超级芯片，预装NVIDIA AI软件栈，可立即用于原型开发、微调及完全本地化的智能体工作流。

运行于NVIDIA RTX PRO 6000工作站，为开发者、研究人员和AI专业人士提供充足的性能空间，支持将本地低延迟生成和智能体循环融入专业工作流程。

部署于DGX Station，凭借748GB相干内存，可提供最高每秒800个Token的业界领先高速推理能力，支持低延迟文本生成和智能体循环应用。

运行于GeForce RTX GPU，llama.cpp支持即将上线。

立即上手：工具链与部署指南

测试和原型开发该模型最快捷的方式是通过Hugging Face Transformers，它支持在GeForce RTX 5090或DGX Spark上开箱即用地运行DiffusionGemma。如需更高吞吐量的推理服务，vLLM提供从发布首日起的即时支持。

如需针对特定任务或领域对模型进行适配，可通过Unsloth和NVIDIA NeMo框架进行微调，并配有现成的DGX Spark使用手册，帮助用户快速搭建本地环境。此外，还可参考面向DGX Spark、RTX PRO和DGX Station的vLLM使用手册。

用户可在Hugging Face上试用DiffusionGemma，也可通过build.nvidia.com使用NVIDIA托管的API接口免费体验。如需深入了解模型架构与本地部署细节，可参阅NVIDIA技术博客及Google DeepMind的官方公告。

Q&A

Q1：DiffusionGemma和普通大语言模型有什么区别？

A：普通大语言模型采用自回归方式，逐个Token生成文本，速度受内存带宽限制。DiffusionGemma则借鉴图像扩散模型的思路，从噪声出发，每步并行处理最多256个Token，一次性生成整个文本块。这种方式将文本生成从内存瓶颈问题转变为计算密集型任务，更充分地发挥了GPU的并行计算优势，在单用户场景下速度可比同等自回归模型快约4倍。

Q2：DiffusionGemma在不同NVIDIA硬件上的运行速度分别是多少？

A：DiffusionGemma在不同硬件上的表现如下：单颗NVIDIA H100 Tensor Core GPU可达每秒1000个Token；NVIDIA DGX Station可实现每秒最高800个Token的推理速度；NVIDIA DGX Spark可达每秒150个Token；GeForce RTX GPU的llama.cpp支持即将推出。整体而言，在单用户场景下比同等自回归模型快约4倍。

Q3：DiffusionGemma怎么使用？需要付费吗？

A：DiffusionGemma采用Apache 2.0开放许可证，完全免费使用。可通过以下方式上手：在Hugging Face上直接试用，支持GeForce RTX 5090和DGX Spark开箱即用；通过build.nvidia.com使用NVIDIA托管API免费体验；如需高吞吐量服务可使用vLLM；微调方面支持Unsloth和NVIDIA NeMo框架。模型可完全在本地运行，无需云端依赖，也不产生按Token计费的费用。

来源：NVIDIA

0赞

好文章，需要你的鼓励

NVIDIA加速Google DeepMind的DiffusionGemma本地AI推理

来源：NVIDIA

2026

06/11

15:43

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

从122TB QLC到本土端到端能力，Solidigm用长期主义服务中国客户

YouTube Music重新设计界面，搜索功能移至Android与iOS底部导航栏

Gemini应用新增谷歌商家资料整合与商业笔记本功能

AI深度投入企业每月人均AI支出达7500美元

Chips&Media向Ambarella授权最新一代视频编解码器IP，深化全球边缘与物理AI市场战略合作

Neura Robotics完成14亿美元C轮融资，加速构建实体AI平台

机器遗忘审计新框架：用正则化f散度核测试提升AI隐私验证效率

Gemini应用出现局部服务中断故障

自动驾驶卡车公司Einride正式登陆纳斯达克

纽约直面数据中心扩张浪潮：如何在发展与电网改革之间寻求平衡

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会