新型 AI 文本扩散模型突破速度瓶颈，从噪声中提取文字

Inception Labs 于周四发布了 Mercury Coder，这是一种新的 AI 语言模型，利用扩散技术比传统模型更快地生成文本。与逐字生成文本的传统模型（如 ChatGPT）不同，基于扩散的模型（如 Mercury）能够同时生成完整的响应，并将其从最初的遮蔽状态逐步精炼为连贯的文本。

周四，Inception Labs 发布了 Mercury Coder，这是一款采用扩散技术生成文本的新型 AI 语言模型。与传统的逐字生成文本的模型（如 ChatGPT 所使用的）不同，Mercury 这类基于扩散的模型能够同时产生完整的响应，将初始遮蔽状态逐步优化成连贯的文本。

传统大语言模型使用"自回归"技术，从左到右一次生成一个 token。每个词都必须等待前面所有词生成后才能出现。受 Stable Diffusion、DALL-E 和 Midjourney 等图像生成模型的启发，LLaDA (由人民大学和蚂蚁集团的研究人员开发) 和 Mercury 等文本扩散语言模型采用了基于遮蔽的方法。这些模型从完全遮蔽的内容开始，通过逐步"去噪"，同时显示响应的所有部分。

虽然图像扩散模型对像素值添加连续噪声，但文本扩散模型无法对离散 token (文本数据块) 应用连续噪声。相反，它们使用特殊的遮蔽 token 来替代文本，作为噪声的等效物。在 LLaDA 中，遮蔽概率控制噪声水平，高遮蔽代表高噪声，低遮蔽代表低噪声。扩散过程从高噪声过渡到低噪声。尽管 LLaDA 使用遮蔽术语而 Mercury 使用噪声术语，但两者都将类似的概念应用于基于扩散的文本生成。

与创建图像合成模型类似，研究人员通过训练神经网络处理部分遮蔽的数据来构建文本扩散模型，让模型预测最可能的补全内容，然后将结果与实际答案进行比较。如果模型预测正确，导致正确答案的神经网络连接会得到强化。经过足够多的示例后，模型就能生成足够准确或合理的输出。

据 Inception Labs 称，由于其方法不局限于仅考虑先前生成的文本，因此模型可以优化输出并纠正错误。这种并行处理使 Mercury 在 Nvidia H100 GPU 上实现了每秒超过 1,000 个 token 的生成速度。

这些扩散模型保持着比同等规模的传统模型更快或相当的性能。LLaDA 的研究人员报告称，他们的 80 亿参数模型在各种基准测试中表现与 LLaMA3 8B 相似，在 MMLU、ARC 和 GSM8K 等任务上取得了具有竞争力的结果。

然而，Mercury 声称在速度上有显著提升。他们的 Mercury Coder Mini 在 HumanEval 上得分 88.0%，在 MBPP 上得分 77.1%—与 GPT-4o Mini 相当—同时据报告运行速度达到每秒 1,109 个 token，而 GPT-4o Mini 为每秒 59 个 token。这表明在保持相似编码基准性能的同时，速度优势约为 GPT-4o Mini 的 19 倍。

Mercury 的文档指出，其模型在 Nvidia H100 上运行速度"超过每秒 1,000 个 token，这种速度此前只能通过 Groq、Cerebras 和 SambaNova 等专业硬件提供商的定制芯片实现"。与其他优化速度的模型相比，其优势仍然显著—Mercury Coder Mini 据报告比 Gemini 2.0 Flash-Lite (每秒 201 个 token) 快约 5.5 倍，比 Claude 3.5 Haiku (每秒 61 个 token) 快 18 倍。

开启大语言模型的新前沿

扩散模型确实需要权衡取舍。与传统模型每个 token 只需一次网络前向传递不同，它们通常需要多次前向传递才能生成完整响应。但由于扩散模型并行处理所有 token，尽管有这种开销，它们仍能实现更高的吞吐量。

Inception 认为，速度优势可能影响代码补全工具（即时响应可能影响开发者生产力）、会话 AI 应用、移动应用等资源受限环境，以及需要快速响应的 AI 代理。

如果基于扩散的语言模型在提高速度的同时保持质量，可能会改变 AI 文本生成的发展方向。到目前为止，AI 研究人员对新方法持开放态度。

独立 AI 研究员 Simon Willison 告诉 Ars Technica："我很高兴看到人们在尝试 Transformer 之外的替代架构，这再次说明我们对大语言模型的探索才刚刚开始。"

前 OpenAI 研究员 Andrej Karpathy 在 X 上写道："这个模型有可能与众不同，可能展示出新的、独特的心理特征，或新的优势和劣势。我鼓励大家尝试使用它！"

关于更大的扩散模型是否能够匹配 GPT-4o 和 Claude 3.7 Sonnet 等模型的性能，以及这种方法是否能够处理日益复杂的模拟推理任务，仍有待观察。目前，这些模型为小型 AI 语言模型提供了一种不牺牲性能换取速度的替代方案。

来源：Arstechnica

0赞

好文章，需要你的鼓励

新型 AI 文本扩散模型突破速度瓶颈，从噪声中提取文字

来源：Arstechnica

2025

02/28

16:51

分享

点赞

数智时代，openGauss Summit 2025即将发布哪些技术创新破局

“算力+储能”深度融合：超智算发布分布式算力超级节点储能解决方案

联想推出DE6600系列：更智能的存储解决方案

创业公司如何在严格监管行业中实现生死攸关的创新

OpenAI发布GPT-5.2-Codex模型，软件工程自动化能力大幅提升

Waterfox浏览器宣布拒绝AI功能，瞄准Firefox忠实用户

TikTok美国业务出售交易将于下月完成

破局AI数据中心安全瓶颈：Fortinet联合NVIDIA引领隔离式加速新航向

智算中心进化论，科华数据如何做到“更懂”

更高负载、更快建设：2026年数据中心六大趋势

Snowflake数据库更新引发全球大规模服务中断

AI编程初创公司Lovable融资3.3亿美元，英伟达等科技巨头支持

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: