研究人员发布新算法，无损提升AI性能高达2.8倍

以色列魏茨曼科学研究所、英特尔实验室和d-Matrix研究人员开发出新算法，能显著降低大语言模型服务成本。该算法基于投机解码技术，无需专门的草稿模型即可将令牌生成速度提升2.8倍。研究提出三种方法：令牌级交集、字符串级精确匹配和字符串级拒绝采样，解决了不同模型词汇表匹配问题。算法已集成到Hugging Face框架中，开发者仅需一行代码即可使用。

众所周知，AI成本高昂，但魏兹曼科学研究所、英特尔实验室和d-Matrix的研究人员开发的一套新算法，只需几行代码就能显著降低大语言模型的服务成本。

本周在国际机器学习会议上发表的这项研究详述了这些算法，为推测解码提供了新的解决方案。研究人员表示，该算法能将Token生成速率提升高达2.8倍，同时无需专门的草稿模型。

推测解码并非新概念。它通过使用小型"草稿"模型来预测更大、更慢但质量更高的"目标"模型的输出。

如果草稿模型能成功预测序列中的下四个Token，那么大模型就无需生成这四个Token，从而获得速度提升。如果预测错误，大模型会丢弃草稿Token并自行生成新的。这一机制确保了整个过程无损——无需牺牲质量来获得速度提升。

这一概念类似于现代智能手机的预测文本功能。当你打字时，它试图猜测你接下来要说什么。猜对时，你可以一键完成句子；猜错时，你只需自己打出来。

实际应用中，推测解码可以有效地将Token生成速度提升2倍甚至3倍。但要在相同计算量下获得3倍的Token数量，关键在于找到兼容的草稿模型。

推测解码采用面临的挑战之一是两个模型的词汇表必须匹配。除非运行的模型恰好有较小的变体，否则利用推测解码往往需要训练专门的草稿模型。更糟糕的是，每当新的目标模型（比如新版本的Llama）发布时，这些专门的草稿模型都必须重新训练。

**通用草稿模型**

这些算法旨在克服这一限制，让任何模型都能充当草稿，无论词汇表是否相同。

为此，研究人员探索了三种不同的方法。第一种叫做Token级交集（TLI），本质上相当于对两个模型的词汇表运行差异比较，找出草稿模型应该避免的词汇。这样草稿模型只预测目标模型词汇表中也存在的Token。

只要模型词汇表有足够的重叠，草稿模型预测的接受率就会保持很高。使用这种方法，研究人员观察到比传统自回归解码速度提升1.7倍，而传统方法每次生成Token时都需要从内存中读取全部模型权重。

第二种算法叫做字符串级精确匹配（SLEM），更像是草稿模型和目标模型分词器之间的翻译层。

分词器是大语言模型将单词、标点符号和其他表达式分解成可理解块的方式。OpenAI有一个很好的演示展示了这个过程。

使用SLEM算法的草稿预测会生成完整的Token字符串，然后转换为两个模型都能理解的中间格式（这里是纯文本）。输出随后由目标模型重新分词以供审查。

魏兹曼研究所博士生Nadav Timor告诉El Reg，这种方法"用精确的字符串匹配替换了推测解码的标准验证方法，这是一种更严格的验证方法。"

这给团队带来了某些挑战，因为分词器处理文本的差异可能引入几乎无法察觉的变化。"例如，如果你有前导空格，它可能会压缩它们，"他解释道。

这听起来可能不是什么大问题，但字符串必须完全匹配，否则会被拒绝，任何潜在的速度提升都会丢失。为了解决这个问题，SLEM引入了启发式函数来帮助平滑差异并提高接受率。至少在摘要和编程等长上下文任务中，改进效果显著，在团队测试中提升高达2.8倍。

**对开发者来说只需修改一行代码**

Timor强调，这些算法都不是理论性的。SLEM和TLI都已经成为Hugging Face Transformers库的一部分，这是目前大规模运行大语言模型最广泛部署的框架之一。"对开发者来说只需修改一行代码，"他说。

选择使用哪种算法取决于你具体如何使用这些模型，Timor说。"有时第一种效果更好，有时第二种更好。你必须在你的具体配置上进行测试。"

在某些情况下，训练专门的草稿模型可能仍然值得。但正如Timor指出的，研究人员开发的算法显著降低了推测解码的采用门槛。

**更多研究有待进行**

Timor对推测解码的研究并未止步于此。如前所述，团队开发了三种算法。

第三种叫做字符串级拒绝采样（SLRS），旨在解决基于字符串验证方法相对较差的接受率问题。

"它使用一个通用的草稿模型，考虑字符串而不是Token的概率，我们证明了它能提高接受率，"Timor说。"问题是在运行时计算这个通用草稿模型在计算上很昂贵，所以你必须重新设计词汇表才能让这个算法实用。"

团队还在寻找解决模型词汇表爆炸性增长问题的方法，并让草稿模型运行得更快。

"词汇表正在变得庞大。比如Llama 4有大约20万个Token，"Timor说，并补充说其中大部分实际上并未使用，却增加了延迟。"我们目前正在努力缩小词汇表。"

他说，这项研究正在进行中。

来源：The Register

0赞

好文章，需要你的鼓励

研究人员发布新算法，无损提升AI性能高达2.8倍

来源：The Register

2025

07/17

18:33

分享

点赞

人工智能是否存在泡沫风险的深度分析

AI系统在压力下学会战略性欺骗的深层原因

数据中心备份电力系统对比分析

Paxos以超1亿美元收购加密钱包初创公司Fordefi

腾讯发布"读图神器"HunyuanOCR，只用1%的参数就打败了行业巨头？

联想天津工厂入选“世界智能制造十大科技进展” 以零碳智造打造业内标杆

联想万全异构智算研发团队入选IEEE CyberSciTech 2025，RNL技术成果获国际认可！

首款搭载千问的AI硬件：夸克AI眼镜新品发布 次日门店现排队潮

ServiceNow或以超10亿美元收购网络安全初创公司Veza

谷歌云推出"PanyaThAI"计划加速泰国AI应用

英国产学合作推进光纤射频通信技术商业化进程

阿里巴巴推出可换电池设计的Quark AI智能眼镜

AWS推出Bedrock AgentCore平台助力企业构建AI智能体

Uber与百度合作推出数千辆自动驾驶出租车

构建基于偏好和技术转换的变革

微软Copilot Vision AI可全屏扫描识别内容

马斯克的xAI与沙特Humain就数据中心交易进行洽谈

谷歌将AI技术引入核反应堆业务

Google为Discover功能新增AI生成摘要

联合健康集团首席数字官：速度是最大的知识产权

Index Engines获得AI持续训练对抗网络威胁专利

Claude Code营收暴涨5.5倍，Anthropic推出分析仪表板

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

首款搭载千问的AI硬件：夸克AI眼镜新品发布次日门店现排队潮