Google开源高速文本扩散大语言模型DiffusionGemma

谷歌今日发布并开源DiffusionGemma大语言模型，采用文本扩散技术，生成速度是传统LLM的四倍，且内存占用更低，支持消费级高端显卡运行。该模型基于图像生成的扩散原理，每次可并行生成256个token，在单块H100上速度超过每秒1000个token。DiffusionGemma拥有260亿参数，但每次仅激活38亿，结合NVFP4数据格式进一步降低显存需求。该模型已在Hugging Face上以开源许可证发布。

谷歌今日正式发布DiffusionGemma，这是一款基于文本扩散这一新兴机器学习方法构建的大语言模型。

谷歌表示，该算法生成文本的速度是传统大语言模型的四倍，且内存占用更低。DiffusionGemma出色的内存效率使其能够运行在高端消费级显卡上，而此类显卡通常难以支撑主流大语言模型的运行需求。

DiffusionGemma的文本扩散架构源自AI模型生成图像的方法。图像生成流程从一张含有高斯噪声的模糊图片开始，AI模型逐步去除噪点，分析优化后的图像，再利用分析结果逐批恢复像素，如此循环直至生成可用的完整图像。

当DiffusionGemma接收到提示词时，会先生成一个由随机词语组成的占位响应，随后将部分随机文本替换为真正构成答案的词语。模型审查这些修改后，再继续生成更多词语，反复迭代，直至最终完成对提示词的回应。

传统AI模型通常每次生成一个Token，而DiffusionGemma的文本扩散架构则支持一次并行生成256个Token，这种并行化处理正是其速度远超标准大语言模型的核心原因。

谷歌表示，DiffusionGemma在单张H100服务器级GPU（英伟达于2022年发布）上每秒可生成超过1000个Token；在英伟达桌面级GeForce RTX 5090显卡上，每秒生成速度也超过700个Token。

DiffusionGemma能够在消费级GPU上运行，原因之一在于其采用了混合专家架构。该模型包含260亿个参数，但每次响应提示词时仅激活其中38亿个，从而有效降低内存占用。此外，DiffusionGemma还通过采用名为NVFP4的轻量级数据格式进一步减少内存消耗。

DiffusionGemma基于谷歌今年4月发布的大语言模型Gemma 4 26B A4B构建。为实现文本扩散功能，谷歌替换了原模型的注意力机制——即用于理解提示词的软件模块。原注意力机制通过分析前文来推断每个词的含义，而新注意力模块还会同时审阅给定词语之后的文本内容。

谷歌研究科学家Brendan O'Donoghue与Sebastian Flennerhag在今日发布的博客文章中写道："尽管AI研究社区多年来一直在探索基于扩散的文本生成方法，但将其应用于大型模型始终面临挑战。DiffusionGemma通过改变模型对硬件的利用方式，突破了这一瓶颈。"

DiffusionGemma现已在Hugging Face平台以开源许可协议发布，公众可免费获取使用。

Q&A

Q1：DiffusionGemma是什么模型，有什么特别之处？

A：DiffusionGemma是谷歌发布的一款基于文本扩散架构的大语言模型。与传统大语言模型每次只生成一个Token不同，DiffusionGemma可一次并行生成256个Token，速度是传统模型的四倍。此外，该模型内存占用更低，可在消费级高端显卡上运行，如英伟达GeForce RTX 5090，每秒生成速度超过700个Token。

Q2：DiffusionGemma的文本扩散原理是怎么运作的？

A：DiffusionGemma的工作方式借鉴了AI图像生成的扩散思路。接收到提示词后，模型先生成一组随机词语作为占位内容，然后逐步将随机词替换为有意义的答案词语，每轮都会审查已有内容并补充新词，反复迭代直至生成完整回复。这种方式与传统逐Token生成有本质区别，效率更高。

Q3：DiffusionGemma采用了哪些技术来降低内存占用？

A：DiffusionGemma主要通过两种方式降低内存使用：一是采用混合专家架构，模型虽有260亿个参数，但每次推理仅激活其中38亿个；二是使用轻量级数据格式NVFP4存储信息，进一步减少显存占用，使模型可以在消费级GPU上流畅运行。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

Google开源高速文本扩散大语言模型DiffusionGemma

来源：SiliconANGLE

2026

06/11

16:01

分享

点赞

填高考志愿这道难题，也有AI参与了

全球最大火箭工程竞赛即将开幕，超2000名学生参与角逐

甲骨文AI投资引发投资者担忧，尽管财报亮眼超预期

Google开源高速文本扩散大语言模型DiffusionGemma

Insta360 Luna Ultra对比DJI Osmo Pocket 4：实测体验全面解析

苹果正重新赢得市场竞争优势

Ruby开发者引入安装冷却机制以抵御供应链攻击

AI赋能医疗健康：实时监测数据的伦理边界与未来走向

荷兰ING银行将AI智能体引入按揭贷款申请流程

规划法规阻碍移动网络发展，Virgin Media O2呼吁英国改革建设审批制度

MotherDuck推出智能体数据接入功能Flights，重塑云端数据分析工作流

华纳音乐收购AI归因初创公司Sureel AI

Insta360 Luna Ultra对比DJI Osmo Pocket 4：实测体验全面解析

苹果正重新赢得市场竞争优势

AI赋能医疗健康：实时监测数据的伦理边界与未来走向

荷兰ING银行将AI智能体引入按揭贷款申请流程

MotherDuck推出智能体数据接入功能Flights，重塑云端数据分析工作流

华纳音乐收购AI归因初创公司Sureel AI

Datadog前工程师创立AI编程初创公司Niteshift，押注反抗大型AI垄断

Jedify融资2400万美元，助力企业为AI智能体注入业务上下文知识

SpaceX IPO背后：支撑其天价估值的三大硬科技豪赌

Chrome 浏览器 Gemini 功能正式扩展至拉丁美洲、非洲及中东地区

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: