上周,Inception公司发布了Mercury 2大语言模型,这是一款基于扩散技术而非主要AI实验室普遍采用的自回归方法构建的模型。在本周的The New Stack Agents节目中,Inception首席执行官兼联合创始人Stefano Ermon解释了扩散模式的生成式AI如何重塑AI应用的构建方式。
首先介绍一些背景:传统大语言模型从左到右逐个Token生成文本,Ermon将这种系统称为"高级自动补全"。而扩散模型的工作方式不同:它们从粗略的答案开始,并行优化,就像Stable Diffusion等图像模型从噪声中生成图像一样。根据Inception自己的测试,这种模型每秒能产生超过1000个Token,比OpenAI、Anthropic和谷歌的速度优化模型快5到10倍。
Ermon向TNS AI高级编辑Frederic Lardinois表示:"我们看到Mercury 2模型作为一个推理模型,实际上能够匹配这些前沿实验室(OpenAI、Anthropic、Meta和谷歌)速度优化模型的质量,同时在端到端延迟方面快5到10倍,也就是你等待答案所需的时间更短。"
自回归模型较慢是因为它们通过内存移动数据而不是进行数学运算。扩散模型专注于并行计算,这正是GPU设计的初衷。GPU巨头英伟达作为Inception的投资者,正在帮助优化服务引擎,Ermon说道。
Ermon在斯坦福大学首创了图像扩散模型,并发表了获得ICML 2024最佳论文奖的基础文本扩散论文。他坦率地承认存在权衡:Mercury 2的质量与Claude Haiku和Google Flash级别的模型相匹配,而非Claude Opus或OpenAI GPT-4。但他认为随着模型规模扩大,经济性将占据优势。强化学习是当今推理模型背后的技术,在扩散架构上也自然更快,因为其瓶颈在于推理。
Inception是唯一发布生产级扩散式大语言模型的公司,谷歌的文本扩散模型仍处于"实验"阶段。Mercury 2现已通过OpenAI兼容的API提供服务,AWS Bedrock集成即将推出。
Q&A
Q1:Mercury 2与传统大语言模型有什么区别?
A:Mercury 2基于扩散技术构建,不同于传统大语言模型的自回归方法。传统模型逐个Token生成文本,而扩散模型从粗略答案开始并行优化,就像图像生成模型从噪声中生成图像一样,这使其速度比主流模型快5到10倍。
Q2:Mercury 2的性能表现如何?
A:根据Inception的测试,Mercury 2每秒能产生超过1000个Token,在质量上能匹配Claude Haiku和Google Flash级别的模型,虽然还达不到Claude Opus或GPT-4的水平,但在速度方面有显著优势。
Q3:扩散模型为什么比自回归模型更快?
A:自回归模型较慢是因为需要通过内存移动数据而不是进行数学运算,而扩散模型专注于并行计算,这正是GPU设计的核心优势。此外,强化学习技术在扩散架构上也自然更快。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。