Inception发布扩散式大语言模型 速度比Claude等主流模型快10倍

Inception公司发布Mercury 2大语言模型,采用扩散技术而非传统自回归方法。该模型每秒可生成超过1000个标记,比OpenAI、Anthropic和谷歌的速度优化模型快5到10倍。扩散模型从粗略答案开始并行优化,而传统模型逐个生成文本标记。虽然质量匹配Claude Haiku级别,但CEO认为随着规模扩大,经济优势将显现。

上周,Inception公司发布了Mercury 2大语言模型,这是一款基于扩散技术而非主要AI实验室普遍采用的自回归方法构建的模型。在本周的The New Stack Agents节目中,Inception首席执行官兼联合创始人Stefano Ermon解释了扩散模式的生成式AI如何重塑AI应用的构建方式。

首先介绍一些背景:传统大语言模型从左到右逐个Token生成文本,Ermon将这种系统称为"高级自动补全"。而扩散模型的工作方式不同:它们从粗略的答案开始,并行优化,就像Stable Diffusion等图像模型从噪声中生成图像一样。根据Inception自己的测试,这种模型每秒能产生超过1000个Token,比OpenAI、Anthropic和谷歌的速度优化模型快5到10倍。

Ermon向TNS AI高级编辑Frederic Lardinois表示:"我们看到Mercury 2模型作为一个推理模型,实际上能够匹配这些前沿实验室(OpenAI、Anthropic、Meta和谷歌)速度优化模型的质量,同时在端到端延迟方面快5到10倍,也就是你等待答案所需的时间更短。"

自回归模型较慢是因为它们通过内存移动数据而不是进行数学运算。扩散模型专注于并行计算,这正是GPU设计的初衷。GPU巨头英伟达作为Inception的投资者,正在帮助优化服务引擎,Ermon说道。

Ermon在斯坦福大学首创了图像扩散模型,并发表了获得ICML 2024最佳论文奖的基础文本扩散论文。他坦率地承认存在权衡:Mercury 2的质量与Claude Haiku和Google Flash级别的模型相匹配,而非Claude Opus或OpenAI GPT-4。但他认为随着模型规模扩大,经济性将占据优势。强化学习是当今推理模型背后的技术,在扩散架构上也自然更快,因为其瓶颈在于推理。

Inception是唯一发布生产级扩散式大语言模型的公司,谷歌的文本扩散模型仍处于"实验"阶段。Mercury 2现已通过OpenAI兼容的API提供服务,AWS Bedrock集成即将推出。

Q&A

Q1:Mercury 2与传统大语言模型有什么区别?

A:Mercury 2基于扩散技术构建,不同于传统大语言模型的自回归方法。传统模型逐个Token生成文本,而扩散模型从粗略答案开始并行优化,就像图像生成模型从噪声中生成图像一样,这使其速度比主流模型快5到10倍。

Q2:Mercury 2的性能表现如何?

A:根据Inception的测试,Mercury 2每秒能产生超过1000个Token,在质量上能匹配Claude Haiku和Google Flash级别的模型,虽然还达不到Claude Opus或GPT-4的水平,但在速度方面有显著优势。

Q3:扩散模型为什么比自回归模型更快?

A:自回归模型较慢是因为需要通过内存移动数据而不是进行数学运算,而扩散模型专注于并行计算,这正是GPU设计的核心优势。此外,强化学习技术在扩散架构上也自然更快。

来源:The New Stack

0赞

好文章,需要你的鼓励

2026

03/16

11:53

分享

点赞

邮件订阅