今日,Google DeepMind正式发布DiffusionGemma——一款专为超高速文本生成而构建的实验性开放模型。NVIDIA已对DiffusionGemma进行深度优化,使其能够在NVIDIA GeForce RTX GPU、NVIDIA RTX PRO平台以及NVIDIA DGX Spark系统上以更快速度运行,覆盖从本地PC到云端的全场景部署。
与传统逐词生成文本的方式不同,DiffusionGemma能够并行生成多个词语,一次性输出完整文本块,为开发者、研究人员和AI爱好者日常运行的单用户工作负载开辟了一条全新的低延迟路径。
新模型的主要特性包括:
并行生成:DiffusionGemma每步可同时对最多256个Token进行去噪处理,而非逐个预测。
基于Gemma 4构建:DiffusionGemma构建于Gemma 4之上,这是一个拥有260亿参数的混合专家模型,每步仅激活38亿个参数,将扩散头与Google Gemma 4架构深度融合。
最高4倍性能提升:这一性能跃升意味着在本地硬件上实现快速文本生成——而这正是单用户生成场景中传统方案最容易遭遇瓶颈的地方。
开放与本地化:DiffusionGemma采用宽松的Apache 2.0许可证开放权重,可完全运行于RTX和DGX Spark设备上,无需云端依赖,无需按Token计费,并从发布第一天起即获得Hugging Face Transformers、vLLM和Unsloth的支持。
从自回归到扩散:一种全新的文本生成范式
目前主流的大语言模型几乎都采用自回归方式——即逐个Token生成文本,每个新词都依赖于前一个词。这种串行处理方式,正是交互式AI给人"正在打字"感觉的根本原因。
DiffusionGemma走了一条截然不同的路。基于Gemma 4 26B混合专家架构,它借鉴扩散模型生成图像的方式来生成文本:从噪声出发,一次性对整个文本块进行精炼。每一步并行处理最多256个Token,而无需逐个输出并等待下一个计算结果。
这使得该模型以"块"为单位进行思考,而非顺序推进。对于延迟敏感的单用户场景——例如交互式对话、智能体循环或需要规划与执行的设备端助手——这种并行性带来的响应速度,足以跟上开发者思考与迭代的节奏。
为何GPU天然适配扩散式文本生成
逐个Token生成文本在本质上是一个受内存带宽制约的问题——传统大语言模型将大量时间消耗在等待内存读写上,而非实际的数学运算,导致大量算力被白白浪费。
扩散方式彻底改变了这一局面。将完整的256个Token组成的文本块并行送入Transformer进行处理,是一种受计算能力制约的工作负载——而这正是NVIDIA GPU的强项所在。NVIDIA Tensor Core加速密集的并行数学运算,CUDA软件栈使模型从第一天起就能高效运行,无需专项调优。简而言之,该模型的设计与GPU的优势高度契合。
这一点在实际数据中得到了充分体现:DiffusionGemma在单颗NVIDIA H100 Tensor Core GPU上可实现每秒1000个Token的生成速度,在NVIDIA DGX Spark上可达每秒150个Token,并在NVIDIA DGX Station上实现最快的本地推理——在相同单用户场景下,比同等规模的自回归模型快约4倍。
这一优势在NVIDIA全系产品线上均有体现:
本地部署于NVIDIA DGX Spark桌面个人AI超级计算机,搭载具备128GB统一内存的NVIDIA GB10 Grace Blackwell超级芯片,预装NVIDIA AI软件栈,可立即用于原型开发、微调及完全本地化的智能体工作流。
运行于NVIDIA RTX PRO 6000工作站,为开发者、研究人员和AI专业人士提供充足的性能空间,支持将本地低延迟生成和智能体循环融入专业工作流程。
部署于DGX Station,凭借748GB相干内存,可提供最高每秒800个Token的业界领先高速推理能力,支持低延迟文本生成和智能体循环应用。
运行于GeForce RTX GPU,llama.cpp支持即将上线。
立即上手:工具链与部署指南
测试和原型开发该模型最快捷的方式是通过Hugging Face Transformers,它支持在GeForce RTX 5090或DGX Spark上开箱即用地运行DiffusionGemma。如需更高吞吐量的推理服务,vLLM提供从发布首日起的即时支持。
如需针对特定任务或领域对模型进行适配,可通过Unsloth和NVIDIA NeMo框架进行微调,并配有现成的DGX Spark使用手册,帮助用户快速搭建本地环境。此外,还可参考面向DGX Spark、RTX PRO和DGX Station的vLLM使用手册。
用户可在Hugging Face上试用DiffusionGemma,也可通过build.nvidia.com使用NVIDIA托管的API接口免费体验。如需深入了解模型架构与本地部署细节,可参阅NVIDIA技术博客及Google DeepMind的官方公告。
Q&A
Q1:DiffusionGemma和普通大语言模型有什么区别?
A:普通大语言模型采用自回归方式,逐个Token生成文本,速度受内存带宽限制。DiffusionGemma则借鉴图像扩散模型的思路,从噪声出发,每步并行处理最多256个Token,一次性生成整个文本块。这种方式将文本生成从内存瓶颈问题转变为计算密集型任务,更充分地发挥了GPU的并行计算优势,在单用户场景下速度可比同等自回归模型快约4倍。
Q2:DiffusionGemma在不同NVIDIA硬件上的运行速度分别是多少?
A:DiffusionGemma在不同硬件上的表现如下:单颗NVIDIA H100 Tensor Core GPU可达每秒1000个Token;NVIDIA DGX Station可实现每秒最高800个Token的推理速度;NVIDIA DGX Spark可达每秒150个Token;GeForce RTX GPU的llama.cpp支持即将推出。整体而言,在单用户场景下比同等自回归模型快约4倍。
Q3:DiffusionGemma怎么使用?需要付费吗?
A:DiffusionGemma采用Apache 2.0开放许可证,完全免费使用。可通过以下方式上手:在Hugging Face上直接试用,支持GeForce RTX 5090和DGX Spark开箱即用;通过build.nvidia.com使用NVIDIA托管API免费体验;如需高吞吐量服务可使用vLLM;微调方面支持Unsloth和NVIDIA NeMo框架。模型可完全在本地运行,无需云端依赖,也不产生按Token计费的费用。
好文章,需要你的鼓励
OpenSkill是一套让AI代理无需人工监督即可自主成长的框架,通过从互联网获取知识、自建虚拟考题反复练习,实现真正的开放世界自我演化。
ProtoSpace Mfg宣布继续担任2026年国际火箭工程竞赛(IREC)的首席赞助商。本届赛事将于6月15日至20日在德克萨斯州米德兰举行,吸引来自20余个国家、175支大学队伍的逾2000名学生工程师参赛。参赛团队将展示并发射自主设计建造的火箭,最高飞行高度可达45000英尺。ProtoSpace Mfg不仅提供赞助支持,还为竞赛及参赛团队提供关键制造支持,助力学生快速实现从设计到发射的全流程。
论文研究了AI评委同时优化多个评判维度时的两大失败原因:梯度稀释与指令干扰,为多目标提示词优化提供了系统性诊断框架。