研究人员发布新算法，无损提升AI性能高达2.8倍

以色列魏茨曼科学研究所、英特尔实验室和d-Matrix研究人员开发出新算法，能显著降低大语言模型服务成本。该算法基于投机解码技术，无需专门的草稿模型即可将令牌生成速度提升2.8倍。研究提出三种方法：令牌级交集、字符串级精确匹配和字符串级拒绝采样，解决了不同模型词汇表匹配问题。算法已集成到Hugging Face框架中，开发者仅需一行代码即可使用。

众所周知，AI成本高昂，但魏兹曼科学研究所、英特尔实验室和d-Matrix的研究人员开发的一套新算法，只需几行代码就能显著降低大语言模型的服务成本。

本周在国际机器学习会议上发表的这项研究详述了这些算法，为推测解码提供了新的解决方案。研究人员表示，该算法能将Token生成速率提升高达2.8倍，同时无需专门的草稿模型。

推测解码并非新概念。它通过使用小型"草稿"模型来预测更大、更慢但质量更高的"目标"模型的输出。

如果草稿模型能成功预测序列中的下四个Token，那么大模型就无需生成这四个Token，从而获得速度提升。如果预测错误，大模型会丢弃草稿Token并自行生成新的。这一机制确保了整个过程无损——无需牺牲质量来获得速度提升。

这一概念类似于现代智能手机的预测文本功能。当你打字时，它试图猜测你接下来要说什么。猜对时，你可以一键完成句子；猜错时，你只需自己打出来。

实际应用中，推测解码可以有效地将Token生成速度提升2倍甚至3倍。但要在相同计算量下获得3倍的Token数量，关键在于找到兼容的草稿模型。

推测解码采用面临的挑战之一是两个模型的词汇表必须匹配。除非运行的模型恰好有较小的变体，否则利用推测解码往往需要训练专门的草稿模型。更糟糕的是，每当新的目标模型（比如新版本的Llama）发布时，这些专门的草稿模型都必须重新训练。

**通用草稿模型**

这些算法旨在克服这一限制，让任何模型都能充当草稿，无论词汇表是否相同。

为此，研究人员探索了三种不同的方法。第一种叫做Token级交集（TLI），本质上相当于对两个模型的词汇表运行差异比较，找出草稿模型应该避免的词汇。这样草稿模型只预测目标模型词汇表中也存在的Token。

只要模型词汇表有足够的重叠，草稿模型预测的接受率就会保持很高。使用这种方法，研究人员观察到比传统自回归解码速度提升1.7倍，而传统方法每次生成Token时都需要从内存中读取全部模型权重。

第二种算法叫做字符串级精确匹配（SLEM），更像是草稿模型和目标模型分词器之间的翻译层。

分词器是大语言模型将单词、标点符号和其他表达式分解成可理解块的方式。OpenAI有一个很好的演示展示了这个过程。

使用SLEM算法的草稿预测会生成完整的Token字符串，然后转换为两个模型都能理解的中间格式（这里是纯文本）。输出随后由目标模型重新分词以供审查。

魏兹曼研究所博士生Nadav Timor告诉El Reg，这种方法"用精确的字符串匹配替换了推测解码的标准验证方法，这是一种更严格的验证方法。"

这给团队带来了某些挑战，因为分词器处理文本的差异可能引入几乎无法察觉的变化。"例如，如果你有前导空格，它可能会压缩它们，"他解释道。

这听起来可能不是什么大问题，但字符串必须完全匹配，否则会被拒绝，任何潜在的速度提升都会丢失。为了解决这个问题，SLEM引入了启发式函数来帮助平滑差异并提高接受率。至少在摘要和编程等长上下文任务中，改进效果显著，在团队测试中提升高达2.8倍。

**对开发者来说只需修改一行代码**

Timor强调，这些算法都不是理论性的。SLEM和TLI都已经成为Hugging Face Transformers库的一部分，这是目前大规模运行大语言模型最广泛部署的框架之一。"对开发者来说只需修改一行代码，"他说。

选择使用哪种算法取决于你具体如何使用这些模型，Timor说。"有时第一种效果更好，有时第二种更好。你必须在你的具体配置上进行测试。"

在某些情况下，训练专门的草稿模型可能仍然值得。但正如Timor指出的，研究人员开发的算法显著降低了推测解码的采用门槛。

**更多研究有待进行**

Timor对推测解码的研究并未止步于此。如前所述，团队开发了三种算法。

第三种叫做字符串级拒绝采样（SLRS），旨在解决基于字符串验证方法相对较差的接受率问题。

"它使用一个通用的草稿模型，考虑字符串而不是Token的概率，我们证明了它能提高接受率，"Timor说。"问题是在运行时计算这个通用草稿模型在计算上很昂贵，所以你必须重新设计词汇表才能让这个算法实用。"

团队还在寻找解决模型词汇表爆炸性增长问题的方法，并让草稿模型运行得更快。

"词汇表正在变得庞大。比如Llama 4有大约20万个Token，"Timor说，并补充说其中大部分实际上并未使用，却增加了延迟。"我们目前正在努力缩小词汇表。"

他说，这项研究正在进行中。

来源：The Register

0赞

好文章，需要你的鼓励

研究人员发布新算法，无损提升AI性能高达2.8倍

来源：The Register

2025

07/17

18:33

分享

点赞

联想集团混合式AI实践获权威肯定，CES期间获评“全球科技引领企业”

CES上杨元庆首谈AGI，碾压人类的叙事不会让AI更聪明

CES 2026 | 重大更新：NVIDIA DGX Spark开启“云边端”模式

Gmail新增Gemini驱动AI功能，智能优先级和摘要来袭

研究发现商业AI模型可完整还原《哈利·波特》原著内容

Razer在2026年CES展会推出全息AI伴侣项目

CES 2026：英伟达新架构亮相，AMD发布新芯片，Razer推出AI奇异产品

通过舞蹈认识LimX Dynamics的人形机器人Oli

谷歌为Gmail搜索引入AI概览功能并推出实验性AI智能收件箱

DuRoBo Krono：搭载AI助手的智能手机尺寸电子阅读器

OpenAI推出ChatGPT Health医疗问答功能

Anthropic寻求3500亿美元估值融资100亿美元

AWS推出Bedrock AgentCore平台助力企业构建AI智能体

Uber与百度合作推出数千辆自动驾驶出租车

构建基于偏好和技术转换的变革

微软Copilot Vision AI可全屏扫描识别内容

马斯克的xAI与沙特Humain就数据中心交易进行洽谈

谷歌将AI技术引入核反应堆业务

Google为Discover功能新增AI生成摘要

联合健康集团首席数字官：速度是最大的知识产权

Index Engines获得AI持续训练对抗网络威胁专利

Claude Code营收暴涨5.5倍，Anthropic推出分析仪表板

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: