NVIDIA加速Google DeepMind的DiffusionGemma本地AI推理

谷歌DeepMind发布了实验性开源模型DiffusionGemma,采用并行扩散方式生成文本,每步可同时处理最多256个token,而非逐词生成。NVIDIA对其进行了深度优化,使其在GeForce RTX GPU、RTX PRO工作站及DGX Spark等设备上实现更高性能。在单张H100 GPU上可达1000 tokens/秒,比同等自回归模型快约4倍。该模型基于Gemma 4架构,采用Apache 2.0开源协议,支持Hugging Face、vLLM等主流框架。

今日,Google DeepMind正式发布DiffusionGemma——一款专为超高速文本生成而构建的实验性开放模型。NVIDIA已对DiffusionGemma进行深度优化,使其能够在NVIDIA GeForce RTX GPU、NVIDIA RTX PRO平台以及NVIDIA DGX Spark系统上以更快速度运行,覆盖从本地PC到云端的全场景部署。

与传统逐词生成文本的方式不同,DiffusionGemma能够并行生成多个词语,一次性输出完整文本块,为开发者、研究人员和AI爱好者日常运行的单用户工作负载开辟了一条全新的低延迟路径。

新模型的主要特性包括:

并行生成:DiffusionGemma每步可同时对最多256个Token进行去噪处理,而非逐个预测。

基于Gemma 4构建:DiffusionGemma构建于Gemma 4之上,这是一个拥有260亿参数的混合专家模型,每步仅激活38亿个参数,将扩散头与Google Gemma 4架构深度融合。

最高4倍性能提升:这一性能跃升意味着在本地硬件上实现快速文本生成——而这正是单用户生成场景中传统方案最容易遭遇瓶颈的地方。

开放与本地化:DiffusionGemma采用宽松的Apache 2.0许可证开放权重,可完全运行于RTX和DGX Spark设备上,无需云端依赖,无需按Token计费,并从发布第一天起即获得Hugging Face Transformers、vLLM和Unsloth的支持。

从自回归到扩散:一种全新的文本生成范式

目前主流的大语言模型几乎都采用自回归方式——即逐个Token生成文本,每个新词都依赖于前一个词。这种串行处理方式,正是交互式AI给人"正在打字"感觉的根本原因。

DiffusionGemma走了一条截然不同的路。基于Gemma 4 26B混合专家架构,它借鉴扩散模型生成图像的方式来生成文本:从噪声出发,一次性对整个文本块进行精炼。每一步并行处理最多256个Token,而无需逐个输出并等待下一个计算结果。

这使得该模型以"块"为单位进行思考,而非顺序推进。对于延迟敏感的单用户场景——例如交互式对话、智能体循环或需要规划与执行的设备端助手——这种并行性带来的响应速度,足以跟上开发者思考与迭代的节奏。

为何GPU天然适配扩散式文本生成

逐个Token生成文本在本质上是一个受内存带宽制约的问题——传统大语言模型将大量时间消耗在等待内存读写上,而非实际的数学运算,导致大量算力被白白浪费。

扩散方式彻底改变了这一局面。将完整的256个Token组成的文本块并行送入Transformer进行处理,是一种受计算能力制约的工作负载——而这正是NVIDIA GPU的强项所在。NVIDIA Tensor Core加速密集的并行数学运算,CUDA软件栈使模型从第一天起就能高效运行,无需专项调优。简而言之,该模型的设计与GPU的优势高度契合。

这一点在实际数据中得到了充分体现:DiffusionGemma在单颗NVIDIA H100 Tensor Core GPU上可实现每秒1000个Token的生成速度,在NVIDIA DGX Spark上可达每秒150个Token,并在NVIDIA DGX Station上实现最快的本地推理——在相同单用户场景下,比同等规模的自回归模型快约4倍。

这一优势在NVIDIA全系产品线上均有体现:

本地部署于NVIDIA DGX Spark桌面个人AI超级计算机,搭载具备128GB统一内存的NVIDIA GB10 Grace Blackwell超级芯片,预装NVIDIA AI软件栈,可立即用于原型开发、微调及完全本地化的智能体工作流。

运行于NVIDIA RTX PRO 6000工作站,为开发者、研究人员和AI专业人士提供充足的性能空间,支持将本地低延迟生成和智能体循环融入专业工作流程。

部署于DGX Station,凭借748GB相干内存,可提供最高每秒800个Token的业界领先高速推理能力,支持低延迟文本生成和智能体循环应用。

运行于GeForce RTX GPU,llama.cpp支持即将上线。

立即上手:工具链与部署指南

测试和原型开发该模型最快捷的方式是通过Hugging Face Transformers,它支持在GeForce RTX 5090或DGX Spark上开箱即用地运行DiffusionGemma。如需更高吞吐量的推理服务,vLLM提供从发布首日起的即时支持。

如需针对特定任务或领域对模型进行适配,可通过Unsloth和NVIDIA NeMo框架进行微调,并配有现成的DGX Spark使用手册,帮助用户快速搭建本地环境。此外,还可参考面向DGX Spark、RTX PRO和DGX Station的vLLM使用手册。

用户可在Hugging Face上试用DiffusionGemma,也可通过build.nvidia.com使用NVIDIA托管的API接口免费体验。如需深入了解模型架构与本地部署细节,可参阅NVIDIA技术博客及Google DeepMind的官方公告。

Q&A

Q1:DiffusionGemma和普通大语言模型有什么区别?

A:普通大语言模型采用自回归方式,逐个Token生成文本,速度受内存带宽限制。DiffusionGemma则借鉴图像扩散模型的思路,从噪声出发,每步并行处理最多256个Token,一次性生成整个文本块。这种方式将文本生成从内存瓶颈问题转变为计算密集型任务,更充分地发挥了GPU的并行计算优势,在单用户场景下速度可比同等自回归模型快约4倍。

Q2:DiffusionGemma在不同NVIDIA硬件上的运行速度分别是多少?

A:DiffusionGemma在不同硬件上的表现如下:单颗NVIDIA H100 Tensor Core GPU可达每秒1000个Token;NVIDIA DGX Station可实现每秒最高800个Token的推理速度;NVIDIA DGX Spark可达每秒150个Token;GeForce RTX GPU的llama.cpp支持即将推出。整体而言,在单用户场景下比同等自回归模型快约4倍。

Q3:DiffusionGemma怎么使用?需要付费吗?

A:DiffusionGemma采用Apache 2.0开放许可证,完全免费使用。可通过以下方式上手:在Hugging Face上直接试用,支持GeForce RTX 5090和DGX Spark开箱即用;通过build.nvidia.com使用NVIDIA托管API免费体验;如需高吞吐量服务可使用vLLM;微调方面支持Unsloth和NVIDIA NeMo框架。模型可完全在本地运行,无需云端依赖,也不产生按Token计费的费用。

来源:NVIDIA

0赞

好文章,需要你的鼓励

2026

06/11

15:43

分享

点赞

邮件订阅