今天,谷歌正式推出DiffusionGemma——一个专注于探索文本扩散技术的实验性开源模型。该模型基于Apache 2.0协议发布,采用拥有260亿参数的混合专家架构(MoE),彻底突破了传统自回归大语言模型逐Token顺序生成的局限,转而实现整块文本的并行生成,在GPU上的文本生成速度最高可提升4倍。
DiffusionGemma以谷歌行业领先的Gemma 4系列模型为基础,融合前沿的Gemini Diffusion研究成果,并集成了专为最大化生成速度而设计的全新扩散头模块。目前,自回归架构的Gemma 4模型仍是高质量生产场景的主流选择,而DiffusionGemma则主要面向研究人员和开发者,适用于对速度敏感的本地交互工作流,例如行内编辑、快速迭代以及非线性文本结构的生成。
为开发者释放全新价值
构建实时交互式AI应用的开发者,常常面临本地推理延迟瓶颈的挑战。DiffusionGemma从根本上解决了这一问题,但也伴随一些值得关注的权衡取舍:
极速推理能力:通过将解码瓶颈从内存带宽转移至计算单元,DiffusionGemma在专用GPU上的Token输出速度最高可达4倍提升(单张NVIDIA H100每秒可生成超过1000个Token,NVIDIA GeForce RTX 5090每秒超过700个Token)。
亲民的硬件门槛:作为一个总参数量260亿的混合专家模型,DiffusionGemma在推理时仅激活38亿参数,量化后可在18GB显存的高端消费级GPU上流畅运行。
双向注意力机制:模型在每次前向传播中并行生成256个Token,每个Token均可关注所有其他Token,这在行内编辑、代码填充、氨基酸序列分析和数学图表等非线性场景中具有显著优势。
智能自纠错能力:模型可对自身输出进行迭代优化,一次性评估整个文本块,实时修正错误。
实验阶段说明与生产建议:由于DiffusionGemma优先追求速度和并行布局生成,整体输出质量低于标准版Gemma 4。对于质量要求较高的应用场景,建议继续使用标准Gemma 4。
通过微调,可以进一步提升DiffusionGemma在特定任务上的表现。例如,Unsloth对DiffusionGemma进行微调后,使其能够求解数独——这是一项自回归模型因每个Token依赖未来Token而难以胜任的任务。DiffusionGemma的双向注意力机制则让这一问题迎刃而解。
为什么选择扩散方式生成文本?
虽然AI研究界探索基于扩散的文本生成技术已有多年,但将其应用于大型模型始终是一大难题。DiffusionGemma的突破在于改变了模型对硬件资源的利用方式。
大多数大语言模型的工作方式类似打字机,从左到右逐Token生成文本。在云端环境中,这种方式效率尚可,因为服务器可以将数千个用户请求批量处理,共享硬件负载。但在单用户本地运行时,这种逐词生成的方式会造成专用GPU或TPU大量闲置——大部分时间都在等待"下一次按键"。
DiffusionGemma从根本上扭转了这一低效局面。它不再逐词顺序预测,而是同时生成一整段包含256个Token的文本段落。通过一次性向处理器提交更大量的计算任务,DiffusionGemma能够充分释放硬件性能。这相当于将模型推理从单台逐字打字的打字机,升级为可同时印刷整块文字的高速印刷机。
这意味着DiffusionGemma的速度优势主要体现在本地或低并发推理场景。在高并发云服务环境中,自回归模型可以通过请求批处理高效利用算力,DiffusionGemma的并行解码优势会递减,甚至可能带来更高的服务成本。其吞吐量优势在单个加速器上的中小批次场景中最为突出。
与AI图像生成模型从随机噪声出发、迭代优化至清晰图像的过程类似,DiffusionGemma将这一思路应用于文本生成:
初始画布:模型从一块随机占位符Token组成的"画布"开始。
迭代精炼:模型多次扫描,逐步确定正确的Token,并将其作为上下文线索来优化其余部分。
最终收敛:文本逐渐收敛为高质量输出内容。
由于模型在生成过程中可以处理整段文本,它能够解锁新的行为模式,例如精准闭合复杂的Markdown格式标记,或近乎实时地生成和渲染代码。
即刻上手,探索无限可能
下载模型权重:现已可在Hugging Face上获取实验性模型权重(基于宽松的Apache 2.0协议发布)。
集成与学习:查阅DiffusionGemma开发者指南,或深入阅读《DiffusionGemma可视化指南》,全面理解其底层运行机制。
使用您熟悉的开发工具:可通过MLX、vLLM(由Red Hat提供集成支持)以及Hugging Face Transformers高效部署模型。如需快速实验,官方提供了基于Hackable Diffusion的微调教程,该工具是一个为可组合性而设计的模块化JAX工具箱。同时也支持通过Unsloth和NVIDIA NeMo进行微调,llama.cpp的官方支持也即将到来。
优化硬件性能:谷歌与NVIDIA深度合作,覆盖其全系硬件,确保消费级设备(量化适配GeForce RTX 5090和4090 GPU)与企业级系统(Hopper和Blackwell架构,支持高级NVFP4内核)均可获得最佳体验,包括面向本地桌面部署的NVIDIA DGX Spark、DGX Station,以及面向AI专业人士的RTX PRO。原生支持NVFP4(4位浮点数)格式,可在接近无损精度的前提下大幅加速计算吞吐量。
灵活运行方式:可在本地桌面专用GPU上运行,也可通过Gemini企业智能体平台Model Garden或NVIDIA NIM在云端部署使用。
Q&A
Q1:DiffusionGemma和普通Gemma 4模型有什么区别?
A:DiffusionGemma是基于Gemma 4架构的实验性扩散式文本生成模型,核心区别在于生成方式。普通Gemma 4采用自回归方式逐Token顺序生成文本,质量更高,适合生产环境。DiffusionGemma则通过并行生成256个Token的方式,在GPU上实现最高4倍的速度提升,但整体输出质量低于标准Gemma 4,更适合对速度敏感的本地交互场景,如行内编辑和快速迭代。
Q2:DiffusionGemma对硬件有什么要求?
A:DiffusionGemma是一个260亿参数的混合专家模型,推理时仅激活38亿参数,量化后可在18GB显存的高端消费级GPU上运行,如NVIDIA GeForce RTX 5090(每秒700+个Token)和RTX 4090。企业级方面,支持Hopper和Blackwell架构,在单张NVIDIA H100上可达每秒1000+个Token。此外,NVIDIA DGX Spark、DGX Station及RTX PRO均已获官方优化支持。
Q3:DiffusionGemma的文本扩散生成原理是什么?
A:DiffusionGemma借鉴了AI图像生成的扩散思路,将其应用于文本。生成过程分三步:首先用随机占位符Token填充一个"画布";然后模型多次迭代扫描,逐步锁定正确Token,并以已确定的内容为上下文线索优化其余部分;最终文本收敛为高质量输出。由于整段256个Token同时处理,模型具备双向注意力能力,可实现代码填充、数独求解等自回归模型难以完成的非线性任务。
好文章,需要你的鼓励
OpenSkill是一套让AI代理无需人工监督即可自主成长的框架,通过从互联网获取知识、自建虚拟考题反复练习,实现真正的开放世界自我演化。
ProtoSpace Mfg宣布继续担任2026年国际火箭工程竞赛(IREC)的首席赞助商。本届赛事将于6月15日至20日在德克萨斯州米德兰举行,吸引来自20余个国家、175支大学队伍的逾2000名学生工程师参赛。参赛团队将展示并发射自主设计建造的火箭,最高飞行高度可达45000英尺。ProtoSpace Mfg不仅提供赞助支持,还为竞赛及参赛团队提供关键制造支持,助力学生快速实现从设计到发射的全流程。
论文研究了AI评委同时优化多个评判维度时的两大失败原因:梯度稀释与指令干扰,为多目标提示词优化提供了系统性诊断框架。