谷歌今日正式发布DiffusionGemma,这是一款基于文本扩散这一新兴机器学习方法构建的大语言模型。
谷歌表示,该算法生成文本的速度是传统大语言模型的四倍,且内存占用更低。DiffusionGemma出色的内存效率使其能够运行在高端消费级显卡上,而此类显卡通常难以支撑主流大语言模型的运行需求。
DiffusionGemma的文本扩散架构源自AI模型生成图像的方法。图像生成流程从一张含有高斯噪声的模糊图片开始,AI模型逐步去除噪点,分析优化后的图像,再利用分析结果逐批恢复像素,如此循环直至生成可用的完整图像。
当DiffusionGemma接收到提示词时,会先生成一个由随机词语组成的占位响应,随后将部分随机文本替换为真正构成答案的词语。模型审查这些修改后,再继续生成更多词语,反复迭代,直至最终完成对提示词的回应。
传统AI模型通常每次生成一个Token,而DiffusionGemma的文本扩散架构则支持一次并行生成256个Token,这种并行化处理正是其速度远超标准大语言模型的核心原因。
谷歌表示,DiffusionGemma在单张H100服务器级GPU(英伟达于2022年发布)上每秒可生成超过1000个Token;在英伟达桌面级GeForce RTX 5090显卡上,每秒生成速度也超过700个Token。
DiffusionGemma能够在消费级GPU上运行,原因之一在于其采用了混合专家架构。该模型包含260亿个参数,但每次响应提示词时仅激活其中38亿个,从而有效降低内存占用。此外,DiffusionGemma还通过采用名为NVFP4的轻量级数据格式进一步减少内存消耗。
DiffusionGemma基于谷歌今年4月发布的大语言模型Gemma 4 26B A4B构建。为实现文本扩散功能,谷歌替换了原模型的注意力机制——即用于理解提示词的软件模块。原注意力机制通过分析前文来推断每个词的含义,而新注意力模块还会同时审阅给定词语之后的文本内容。
谷歌研究科学家Brendan O'Donoghue与Sebastian Flennerhag在今日发布的博客文章中写道:"尽管AI研究社区多年来一直在探索基于扩散的文本生成方法,但将其应用于大型模型始终面临挑战。DiffusionGemma通过改变模型对硬件的利用方式,突破了这一瓶颈。"
DiffusionGemma现已在Hugging Face平台以开源许可协议发布,公众可免费获取使用。
Q&A
Q1:DiffusionGemma是什么模型,有什么特别之处?
A:DiffusionGemma是谷歌发布的一款基于文本扩散架构的大语言模型。与传统大语言模型每次只生成一个Token不同,DiffusionGemma可一次并行生成256个Token,速度是传统模型的四倍。此外,该模型内存占用更低,可在消费级高端显卡上运行,如英伟达GeForce RTX 5090,每秒生成速度超过700个Token。
Q2:DiffusionGemma的文本扩散原理是怎么运作的?
A:DiffusionGemma的工作方式借鉴了AI图像生成的扩散思路。接收到提示词后,模型先生成一组随机词语作为占位内容,然后逐步将随机词替换为有意义的答案词语,每轮都会审查已有内容并补充新词,反复迭代直至生成完整回复。这种方式与传统逐Token生成有本质区别,效率更高。
Q3:DiffusionGemma采用了哪些技术来降低内存占用?
A:DiffusionGemma主要通过两种方式降低内存使用:一是采用混合专家架构,模型虽有260亿个参数,但每次推理仅激活其中38亿个;二是使用轻量级数据格式NVFP4存储信息,进一步减少显存占用,使模型可以在消费级GPU上流畅运行。
好文章,需要你的鼓励
仿人机器人与自动驾驶汽车在区域架构、功能安全及雷达传感方面高度相似。多分辨率摄像头组合可更好地模拟人类视野,兼顾广角低保真与局部高精度需求。自然运动需实时计算正逆运动学、距离与深度,同时须兼顾功耗效率。当前视觉与基础操控技术最为成熟,而触觉、全身协调及非结构化环境中的移动能力仍是主要挑战。业界正借鉴自动驾驶经验,加速推进仿人机器人的规模化落地。
这项研究提出Epi2Diff方法,通过将大型推理模型的解题思考过程拆解为认知片段序列,提取过程特征预测考题对人类的难度,在四个真实考试数据集上超越了所有对比基线。
随着AI技术发展,攻击者可融合白市、灰市及黑市数据,构建个人及其环境的数字孪生体,使定向攻击更为便捷。专家指出,AI与网络安全的核心交汇点是数据本身。防御AI数据融合攻击需依赖硬件信任根、强加密、安全密钥存储及严格的数据匿名化措施。芯片架构师需将安全设计嵌入硬件层,确保数据完整性验证、隔离执行及认证数据流,以应对日益复杂的运行时攻击面。
南京大学与阿里巴巴提出MIMFlow,将掩码图像建模与标准化流端到端融合,让生成模型专注语义建模,以更少参数和更少令牌在ImageNet上取得FID 2.50的优异表现。