超越GPT架构：谷歌扩散模型或将重塑大语言模型部署方式

谷歌DeepMind推出实验性研究模型Gemini Diffusion，采用扩散方法生成文本，打破传统大语言模型依赖自回归逐词生成的模式。该技术从随机噪声开始，逐步细化为连贯输出，显著提升生成速度至每秒1000-2000个令牌，是Gemini 2.5 Flash的3-7倍。扩散模型支持并行处理、自我纠错和非因果推理，在编程和数学任务中表现出色。虽然在多语言和推理能力上仍有差距，但该技术为实时对话AI、代码辅助等低延迟应用带来巨大潜力，标志着语言模型架构的重要变革。

上月，谷歌DeepMind在发布一系列新AI工具和创新技术的同时，推出了Gemini Diffusion。这一实验性研究模型采用基于扩散的方法生成文本。传统上，GPT和Gemini等大语言模型依赖自回归技术，即逐步生成每个词的方法。扩散语言模型（DLM）采用了更常见于图像生成的方法，从随机噪声开始，逐步优化为连贯输出。这种方法大幅提升了生成速度，并能改善连贯性和一致性。

Gemini Diffusion目前作为实验性演示版本提供，用户可申请体验资格。

理解扩散与自回归的区别

扩散和自回归是根本不同的方法。自回归方法按顺序生成文本，逐个预测标记。虽然这种方法确保了强连贯性和上下文跟踪，但计算密集且速度较慢，特别是对于长篇内容。

相比之下，扩散模型从随机噪声开始，逐步去噪形成连贯输出。应用于语言时，该技术具有多项优势。文本块可以并行处理，能以更高速率生成整个段落或句子。

据报告，Gemini Diffusion每秒可生成1000-2000个标记。相比之下，Gemini 2.5 Flash的平均输出速度为每秒272.4个标记。此外，生成过程中的错误可在优化过程中纠正，提高准确性并减少幻觉。尽管在精细准确性和标记级控制方面可能存在权衡，但速度提升将成为众多应用的游戏规则改变者。

基于扩散的文本生成如何工作？

在训练期间，DLM通过多步骤逐渐向句子添加噪声，直到原始句子完全无法识别。然后训练模型逆转这一过程，逐步从噪声版本重构原始句子。通过迭代优化，模型学会对训练数据中所有合理句子的完整分布进行建模。

虽然Gemini Diffusion的具体细节尚未披露，扩散模型的典型训练方法包括以下关键阶段：

前向扩散：对训练数据集中的每个样本，在多个周期（通常500-1000次）中逐步添加噪声，直到与随机噪声无法区分。

逆向扩散：模型学会逆转每个噪声步骤，本质上学习如何逐步"去噪"损坏的句子，最终恢复原始结构。

这一过程通过多样化样本和噪声水平重复数百万次，使模型学会可靠的去噪功能。

训练完成后，模型能够生成全新句子。DLM通常需要条件或输入，如提示、类别标签或嵌入，以引导生成期望的结果。条件被注入去噪过程的每个步骤，将初始噪声块塑造为结构化的连贯文本。

基于扩散模型的优势与劣势

在接受采访时，谷歌DeepMind研究科学家、Gemini Diffusion项目负责人之一Brendan O'Donoghue详细阐述了扩散技术相比自回归的优势：

更低延迟：扩散模型能在更短时间内产生标记序列。

自适应计算：扩散模型根据任务难度以不同速率收敛到标记序列，使模型在简单任务上消耗更少资源并降低延迟。

非因果推理：由于去噪器中的双向注意力，标记可以关注同一生成块内的未来标记，实现非因果推理并进行全局编辑以产生更连贯的文本。

迭代优化/自我纠正：去噪过程涉及采样，可能引入错误，但与自回归模型不同，标记会传回去噪器，有机会纠正错误。

O'Donoghue也指出主要劣势："服务成本更高，首个标记时间（TTFT）略长，因为自回归模型会立即产生首个标记，而扩散模型只能在整个标记序列就绪后才能显示首个标记。"

性能基准测试

谷歌表示Gemini Diffusion的性能与Gemini 2.0 Flash-Lite相当。两个模型在多个基准测试中进行比较，评分基于模型首次尝试产生正确答案的次数。Gemini Diffusion在编程和数学测试中表现出色，而Gemini 2.0 Flash-lite在推理、科学知识和多语言能力方面更具优势。

随着Gemini Diffusion的发展，其性能有望赶上更成熟的模型。据O'Donoghue表示，两种技术之间的差距"在基准性能方面基本已经消除，至少在我们已扩展到的相对较小规模上如此。实际上，在非局部一致性重要的某些领域，如编程和推理，扩散可能具有性能优势。"

测试Gemini Diffusion

在实际测试中，我们首先注意到其速度优势。在运行谷歌提供的建议提示时，包括构建木琴和行星井字游戏等交互式HTML应用，每个请求在三秒内完成，速度范围为每秒600-1300个标记。

为测试实际应用性能，我们要求Gemini Diffusion构建视频聊天界面。在不到两秒内，Gemini Diffusion创建了带有视频预览和音频计量器的工作界面。

Gemini Diffusion还具有"即时编辑"模式，可粘贴文本或代码并通过最少提示进行实时编辑。即时编辑对多种文本编辑任务有效，包括语法纠正、针对不同读者群体更新文本或添加SEO关键词。它也适用于代码重构、为应用添加新功能或将现有代码库转换为不同语言等任务。

DLM的企业应用案例

任何需要快速响应时间的应用都能从DLM技术中受益。这包括实时和低延迟应用，如对话AI和聊天机器人、实时转录和翻译，或IDE自动完成和编程助手。

据O'Donoghue介绍，对于利用"内联编辑"的应用，例如获取文本片段并就地进行更改，扩散模型在自回归模型无法胜任的方面具有适用性。由于"双向注意力提供的非因果推理"，DLM在推理、数学和编程问题方面也具有优势。

DLM仍处于起步阶段，但该技术有望转变语言模型的构建方式。它们不仅以比自回归模型高得多的速率生成文本，其回溯和修正错误的能力意味着最终可能产生更高准确性的结果。

Gemini Diffusion加入了不断增长的DLM生态系统，其中包括Inception Labs开发的Mercury和GSAI的开源模型LLaDa等。这些模型共同反映了基于扩散的语言生成背后的广泛动力，为传统自回归架构提供了可扩展、可并行化的替代方案。

来源：VentureBeat

0赞

好文章，需要你的鼓励

超越GPT架构：谷歌扩散模型或将重塑大语言模型部署方式

来源：VentureBeat

2025

06/16

10:19

分享

点赞

为AI+而生，海辰储能发布全球首款锂钠协同AIDC全时长储能解决方案

长时储能开启智慧未来：海辰储能生态日全球首发三大新品

Arm 借助融合型 AI 数据中心，重塑计算格局

奥运级别的努力：首席信息官为2026年AI颠覆做准备

Spotify推出AI播放列表功能让用户掌控推荐算法

Adobe押注生成式AI获得回报，年度营收创历史新高

OpenAI与迪士尼达成十亿美元合作协议，米老鼠和漫威角色进入Sora

甲骨文150亿美元数据中心投资导致股价下跌

Spoor鸟类监测AI软件需求飞速增长

制药行业AI数据质量危机：垃圾进垃圾出的隐患

Harness获得2.4亿美元融资，估值达55亿美元，专注自动化AI编码后的开发流程

英伟达CEO黄仁勋独家专访：万亿美元押注AI工厂将成为新时代计算机

多模态AI：强大飞跃背后的复杂权衡考量

AMD超越AI能效目标并树立行业新标准

DeepSeek重新定义AI发展路径：低成本高效率模式挑战传统范式

前沿模型的工作方式：与AI智能对话的新时代

Ubuntu 25.10和Fedora 43的GNOME版本将放弃X11支持

SAP Sapphire 2025揭示AI驱动商业应用的重大转变

大规模开源安全应用所驱动的五大安全原则

Automattic收购关系管理应用Clay为在线工具增加身份层

Warp引入机器人技术实现仓储网络自动化

Meta发布新AI模型：能理解重力等物理规律

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: