Inception发布扩散式大语言模型速度比Claude等主流模型快10倍

Inception公司发布Mercury 2大语言模型，采用扩散技术而非传统自回归方法。该模型每秒可生成超过1000个标记，比OpenAI、Anthropic和谷歌的速度优化模型快5到10倍。扩散模型从粗略答案开始并行优化，而传统模型逐个生成文本标记。虽然质量匹配Claude Haiku级别，但CEO认为随着规模扩大，经济优势将显现。

上周，Inception公司发布了Mercury 2大语言模型，这是一款基于扩散技术而非主要AI实验室普遍采用的自回归方法构建的模型。在本周的The New Stack Agents节目中，Inception首席执行官兼联合创始人Stefano Ermon解释了扩散模式的生成式AI如何重塑AI应用的构建方式。

首先介绍一些背景：传统大语言模型从左到右逐个Token生成文本，Ermon将这种系统称为"高级自动补全"。而扩散模型的工作方式不同：它们从粗略的答案开始，并行优化，就像Stable Diffusion等图像模型从噪声中生成图像一样。根据Inception自己的测试，这种模型每秒能产生超过1000个Token，比OpenAI、Anthropic和谷歌的速度优化模型快5到10倍。

Ermon向TNS AI高级编辑Frederic Lardinois表示："我们看到Mercury 2模型作为一个推理模型，实际上能够匹配这些前沿实验室（OpenAI、Anthropic、Meta和谷歌）速度优化模型的质量，同时在端到端延迟方面快5到10倍，也就是你等待答案所需的时间更短。"

自回归模型较慢是因为它们通过内存移动数据而不是进行数学运算。扩散模型专注于并行计算，这正是GPU设计的初衷。GPU巨头英伟达作为Inception的投资者，正在帮助优化服务引擎，Ermon说道。

Ermon在斯坦福大学首创了图像扩散模型，并发表了获得ICML 2024最佳论文奖的基础文本扩散论文。他坦率地承认存在权衡：Mercury 2的质量与Claude Haiku和Google Flash级别的模型相匹配，而非Claude Opus或OpenAI GPT-4。但他认为随着模型规模扩大，经济性将占据优势。强化学习是当今推理模型背后的技术，在扩散架构上也自然更快，因为其瓶颈在于推理。

Inception是唯一发布生产级扩散式大语言模型的公司，谷歌的文本扩散模型仍处于"实验"阶段。Mercury 2现已通过OpenAI兼容的API提供服务，AWS Bedrock集成即将推出。

Q&A

Q1：Mercury 2与传统大语言模型有什么区别？

A：Mercury 2基于扩散技术构建，不同于传统大语言模型的自回归方法。传统模型逐个Token生成文本，而扩散模型从粗略答案开始并行优化，就像图像生成模型从噪声中生成图像一样，这使其速度比主流模型快5到10倍。

Q2：Mercury 2的性能表现如何？

A：根据Inception的测试，Mercury 2每秒能产生超过1000个Token，在质量上能匹配Claude Haiku和Google Flash级别的模型，虽然还达不到Claude Opus或GPT-4的水平，但在速度方面有显著优势。

Q3：扩散模型为什么比自回归模型更快？

A：自回归模型较慢是因为需要通过内存移动数据而不是进行数学运算，而扩散模型专注于并行计算，这正是GPU设计的核心优势。此外，强化学习技术在扩散架构上也自然更快。

来源：The New Stack

0赞

好文章，需要你的鼓励

Inception发布扩散式大语言模型 速度比Claude等主流模型快10倍

来源：The New Stack

2026

03/16

11:53

分享

点赞

Bookshop.org确认今年将推出Kobo电子书阅读器支持

WeWard新增"步行模式"：走够步数才能解锁应用

X将通过私信通知用户其互动帖子被社区笔记纠错

"慢社交"应用Roost：让消息像真鸟一样飞行

Truecaller与印度电信监管机构就反垃圾电话规则展开公开交锋

Block与46州达成4500万美元和解，涉Cash App欺诈纠纷

欧盟威胁对Meta开出罚款，剑指Facebook和Instagram上瘾性设计

Disney+考虑推出免费流媒体内容层级

HyperTexting：将开放网络变成类社交媒体信息流的新应用

TV Time关闭之际，创始人打造新追剧应用Bingers

Telegram短链域名t.me因制裁合规问题短暂下线后已恢复

Apple芯片现不可修复漏洞，或成iPhone越狱突破口

Adobe宣布CEO换届 企业AI支出飙升推动业绩增长

父子档创立Nyne：为AI智能体提供缺失的人类背景信息

Digg大规模裁员并关闭应用程序，公司正在重组转型

Gemini任务自动化功能来了，效果令人震撼

Confluent发布Kafka平台重大更新：新增A2A支持、异常检测和队列功能

经过多年等待，ARM64 Linux用户终于迎来Chrome浏览器

从GPU集群到AI工厂：迈向英伟达GTC的AI基础设施下一阶段

自动化为智能体网络运营铺平道路

NanoClaw集成Docker Sandbox提升AI智能体安全性

Red Hat推出首个完整AI平台：企业级AI解决方案新里程碑

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

Inception发布扩散式大语言模型速度比Claude等主流模型快10倍

Adobe宣布CEO换届企业AI支出飙升推动业绩增长