谷歌今日正式发布DiffusionGemma,这是一款基于文本扩散这一新兴机器学习方法构建的大语言模型。
谷歌表示,该算法生成文本的速度是传统大语言模型的四倍,且内存占用更低。DiffusionGemma出色的内存效率使其能够运行在高端消费级显卡上,而此类显卡通常难以支撑主流大语言模型的运行需求。
DiffusionGemma的文本扩散架构源自AI模型生成图像的方法。图像生成流程从一张含有高斯噪声的模糊图片开始,AI模型逐步去除噪点,分析优化后的图像,再利用分析结果逐批恢复像素,如此循环直至生成可用的完整图像。
当DiffusionGemma接收到提示词时,会先生成一个由随机词语组成的占位响应,随后将部分随机文本替换为真正构成答案的词语。模型审查这些修改后,再继续生成更多词语,反复迭代,直至最终完成对提示词的回应。
传统AI模型通常每次生成一个Token,而DiffusionGemma的文本扩散架构则支持一次并行生成256个Token,这种并行化处理正是其速度远超标准大语言模型的核心原因。
谷歌表示,DiffusionGemma在单张H100服务器级GPU(英伟达于2022年发布)上每秒可生成超过1000个Token;在英伟达桌面级GeForce RTX 5090显卡上,每秒生成速度也超过700个Token。
DiffusionGemma能够在消费级GPU上运行,原因之一在于其采用了混合专家架构。该模型包含260亿个参数,但每次响应提示词时仅激活其中38亿个,从而有效降低内存占用。此外,DiffusionGemma还通过采用名为NVFP4的轻量级数据格式进一步减少内存消耗。
DiffusionGemma基于谷歌今年4月发布的大语言模型Gemma 4 26B A4B构建。为实现文本扩散功能,谷歌替换了原模型的注意力机制——即用于理解提示词的软件模块。原注意力机制通过分析前文来推断每个词的含义,而新注意力模块还会同时审阅给定词语之后的文本内容。
谷歌研究科学家Brendan O'Donoghue与Sebastian Flennerhag在今日发布的博客文章中写道:"尽管AI研究社区多年来一直在探索基于扩散的文本生成方法,但将其应用于大型模型始终面临挑战。DiffusionGemma通过改变模型对硬件的利用方式,突破了这一瓶颈。"
DiffusionGemma现已在Hugging Face平台以开源许可协议发布,公众可免费获取使用。
Q&A
Q1:DiffusionGemma是什么模型,有什么特别之处?
A:DiffusionGemma是谷歌发布的一款基于文本扩散架构的大语言模型。与传统大语言模型每次只生成一个Token不同,DiffusionGemma可一次并行生成256个Token,速度是传统模型的四倍。此外,该模型内存占用更低,可在消费级高端显卡上运行,如英伟达GeForce RTX 5090,每秒生成速度超过700个Token。
Q2:DiffusionGemma的文本扩散原理是怎么运作的?
A:DiffusionGemma的工作方式借鉴了AI图像生成的扩散思路。接收到提示词后,模型先生成一组随机词语作为占位内容,然后逐步将随机词替换为有意义的答案词语,每轮都会审查已有内容并补充新词,反复迭代直至生成完整回复。这种方式与传统逐Token生成有本质区别,效率更高。
Q3:DiffusionGemma采用了哪些技术来降低内存占用?
A:DiffusionGemma主要通过两种方式降低内存使用:一是采用混合专家架构,模型虽有260亿个参数,但每次推理仅激活其中38亿个;二是使用轻量级数据格式NVFP4存储信息,进一步减少显存占用,使模型可以在消费级GPU上流畅运行。
好文章,需要你的鼓励
ProtoSpace Mfg宣布继续担任2026年国际火箭工程竞赛(IREC)的首席赞助商。本届赛事将于6月15日至20日在德克萨斯州米德兰举行,吸引来自20余个国家、175支大学队伍的逾2000名学生工程师参赛。参赛团队将展示并发射自主设计建造的火箭,最高飞行高度可达45000英尺。ProtoSpace Mfg不仅提供赞助支持,还为竞赛及参赛团队提供关键制造支持,助力学生快速实现从设计到发射的全流程。
论文研究了AI评委同时优化多个评判维度时的两大失败原因:梯度稀释与指令干扰,为多目标提示词优化提供了系统性诊断框架。
甲骨文公司公布第四季度财报,每股收益2.03美元,营收同比增长21%至191.8亿美元,均超华尔街预期,并上调2027财年盈利预测至每股8.05美元。然而,公司宣布将额外融资400亿美元用于AI数据中心建设,叠加其对OpenAI的高度依赖,引发投资者担忧,导致盘后股价下跌约9%。分析师指出,甲骨文过度押注OpenAI存在较大风险。
小红书与上海交大联合推出 dots.tts,一个20亿参数的连续自回归语音合成系统,通过三模块协作、自我纠错训练和蒸馏加速,在多语言零样本声音克隆基准上达到开源最优水平。