Inception发布Mercury 2，快速突破大语言模型延迟瓶颈

Inception推出Mercury 2大语言模型，号称全球最快推理LLM。该模型采用并行细化技术替代传统顺序解码，可同时生成多个标记并在少数步骤内收敛，显著提升生成速度。Mercury 2兼容OpenAI API，通过扩散推理在实时延迟预算内提供推理级质量，特别适用于编程编辑、智能体循环、实时语音交互等对延迟敏感的应用场景。

Inception公司推出了Mercury 2，声称这是世界上最快的推理型大语言模型。该模型专为生产级AI应用设计，采用并行优化而非传统的顺序解码技术。

Mercury 2于2月24日正式发布，开发者可通过Inception官网申请访问权限，也可以通过Inception聊天界面体验这款模型。

Inception表示，Mercury 2旨在解决大语言模型常见的瓶颈问题，即自回归顺序解码的限制。该模型通过并行优化生成响应，这一过程能够同时产生多个Token，并在少数几个步骤内实现收敛。根据公告，并行优化不仅大幅提升了生成速度，还改变了推理权衡机制。

通常情况下，更高的智能水平意味着测试时需要更多计算资源，包括更长的链条、更多样本和更多重试，这些都会导致更高的延迟和成本。Mercury 2采用基于扩散的推理技术，在实时延迟预算范围内提供推理级别的质量。

该公司表示，Mercury 2与OpenAI API兼容，特别适用于对延迟敏感且用户体验要求极高的应用场景。主要用例包括代码编写和编辑、智能体循环、实时语音和交互，以及搜索和RAG操作管道。

Q&A

Q1：Mercury 2是什么？有什么特别之处？

A：Mercury 2是Inception公司开发的大语言模型，被称为世界上最快的推理型大语言模型。它的特别之处在于采用并行优化技术而非传统的顺序解码，能够同时产生多个Token，大幅提升生成速度并降低延迟。

Q2：Mercury 2适合哪些应用场景？

A：Mercury 2特别适用于对延迟敏感且用户体验要求极高的应用场景，包括代码编写和编辑、智能体循环、实时语音和交互，以及搜索和RAG操作管道等生产级AI应用。

Q3：如何使用Mercury 2？

A：开发者可以通过Inception公司官网申请访问权限，也可以通过Inception聊天界面体验该模型。Mercury 2与OpenAI API兼容，便于开发者集成到现有系统中。

来源：InfoWorld

0赞

好文章，需要你的鼓励

Inception发布Mercury 2，快速突破大语言模型延迟瓶颈

来源：InfoWorld

2026

03/04

12:12

分享

点赞

Glean年收入突破3亿美元，削减AI成本成核心卖点

蓝色起源"新格伦"火箭在佛罗里达测试中发生爆炸

智能体AI正在重塑企业架构与Token经济学

堪培拉理工学院如何借助技术革新重塑课堂教学体验

Gemma 4携手Arm：优化端侧AI，加速移动应用体验

制药公司与初创企业如何携手推动AI落地

《星球大战》导演盛赞生成式AI：电影制作的革命性工具

Salesforce借助Informatica布局企业级无头数据管理架构

几乎所有M5 MacBook Air配置现在都降价近200美元

企业用好Agent，关键不在“买一个智能体”｜原点Talk 分享会

大模型评测风向变了，Testin云测如何构建企业级AI质量标尺？

因民事养老金管理失误，英国政府拒绝向Capita授予5.63亿英镑合同

iPad Air vs. iPad及iPad Pro对比：如何选择合适的平板电脑

AI智能体：下一波身份暗物质挑战

Meta智能眼镜被曝向人工审核员分享隐私视频

大语言模型能大规模识别匿名用户身份，准确度令人震惊

新兴市场优先考虑用智能体AI推动营收增长

英国议会启动教育技术应用调查研究

桑坦德银行与万事达卡完成欧洲首个AI自主执行支付试点

Meta加强智能眼镜市场控制，全球出货量激增139%

加速内容生命周期：医学法律法规审查中AI应用的7步指南

数据中心新发展动态：2026年3月

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: