众所周知,AI成本高昂,但魏兹曼科学研究所、英特尔实验室和d-Matrix的研究人员开发的一套新算法,只需几行代码就能显著降低大语言模型的服务成本。
本周在国际机器学习会议上发表的这项研究详述了这些算法,为推测解码提供了新的解决方案。研究人员表示,该算法能将Token生成速率提升高达2.8倍,同时无需专门的草稿模型。
推测解码并非新概念。它通过使用小型"草稿"模型来预测更大、更慢但质量更高的"目标"模型的输出。
如果草稿模型能成功预测序列中的下四个Token,那么大模型就无需生成这四个Token,从而获得速度提升。如果预测错误,大模型会丢弃草稿Token并自行生成新的。这一机制确保了整个过程无损——无需牺牲质量来获得速度提升。
这一概念类似于现代智能手机的预测文本功能。当你打字时,它试图猜测你接下来要说什么。猜对时,你可以一键完成句子;猜错时,你只需自己打出来。
实际应用中,推测解码可以有效地将Token生成速度提升2倍甚至3倍。但要在相同计算量下获得3倍的Token数量,关键在于找到兼容的草稿模型。
推测解码采用面临的挑战之一是两个模型的词汇表必须匹配。除非运行的模型恰好有较小的变体,否则利用推测解码往往需要训练专门的草稿模型。更糟糕的是,每当新的目标模型(比如新版本的Llama)发布时,这些专门的草稿模型都必须重新训练。
**通用草稿模型**
这些算法旨在克服这一限制,让任何模型都能充当草稿,无论词汇表是否相同。
为此,研究人员探索了三种不同的方法。第一种叫做Token级交集(TLI),本质上相当于对两个模型的词汇表运行差异比较,找出草稿模型应该避免的词汇。这样草稿模型只预测目标模型词汇表中也存在的Token。
只要模型词汇表有足够的重叠,草稿模型预测的接受率就会保持很高。使用这种方法,研究人员观察到比传统自回归解码速度提升1.7倍,而传统方法每次生成Token时都需要从内存中读取全部模型权重。
第二种算法叫做字符串级精确匹配(SLEM),更像是草稿模型和目标模型分词器之间的翻译层。
分词器是大语言模型将单词、标点符号和其他表达式分解成可理解块的方式。OpenAI有一个很好的演示展示了这个过程。
使用SLEM算法的草稿预测会生成完整的Token字符串,然后转换为两个模型都能理解的中间格式(这里是纯文本)。输出随后由目标模型重新分词以供审查。
魏兹曼研究所博士生Nadav Timor告诉El Reg,这种方法"用精确的字符串匹配替换了推测解码的标准验证方法,这是一种更严格的验证方法。"
这给团队带来了某些挑战,因为分词器处理文本的差异可能引入几乎无法察觉的变化。"例如,如果你有前导空格,它可能会压缩它们,"他解释道。
这听起来可能不是什么大问题,但字符串必须完全匹配,否则会被拒绝,任何潜在的速度提升都会丢失。为了解决这个问题,SLEM引入了启发式函数来帮助平滑差异并提高接受率。至少在摘要和编程等长上下文任务中,改进效果显著,在团队测试中提升高达2.8倍。
**对开发者来说只需修改一行代码**
Timor强调,这些算法都不是理论性的。SLEM和TLI都已经成为Hugging Face Transformers库的一部分,这是目前大规模运行大语言模型最广泛部署的框架之一。"对开发者来说只需修改一行代码,"他说。
选择使用哪种算法取决于你具体如何使用这些模型,Timor说。"有时第一种效果更好,有时第二种更好。你必须在你的具体配置上进行测试。"
在某些情况下,训练专门的草稿模型可能仍然值得。但正如Timor指出的,研究人员开发的算法显著降低了推测解码的采用门槛。
**更多研究有待进行**
Timor对推测解码的研究并未止步于此。如前所述,团队开发了三种算法。
第三种叫做字符串级拒绝采样(SLRS),旨在解决基于字符串验证方法相对较差的接受率问题。
"它使用一个通用的草稿模型,考虑字符串而不是Token的概率,我们证明了它能提高接受率,"Timor说。"问题是在运行时计算这个通用草稿模型在计算上很昂贵,所以你必须重新设计词汇表才能让这个算法实用。"
团队还在寻找解决模型词汇表爆炸性增长问题的方法,并让草稿模型运行得更快。
"词汇表正在变得庞大。比如Llama 4有大约20万个Token,"Timor说,并补充说其中大部分实际上并未使用,却增加了延迟。"我们目前正在努力缩小词汇表。"
他说,这项研究正在进行中。
好文章,需要你的鼓励
美国网络安全和基础设施安全局指示联邦机构修补影响思科ASA 5500-X系列防火墙设备的两个零日漏洞CVE-2025-20362和CVE-2025-20333。这些漏洞可绕过VPN身份验证并获取root访问权限,已被黑客积极利用。攻击与国家支持的ArcaneDoor黑客活动有关,黑客通过漏洞安装bootkit恶意软件并操控只读存储器实现持久化。思科已发布补丁,CISA要求机构清点易受攻击系统并在今日前完成修补。
康考迪亚大学研究团队通过对比混合量子-经典神经网络与传统模型在三个基准数据集上的表现,发现量子增强模型在准确率、训练速度和资源效率方面均显著优于传统方法。研究显示混合模型的优势随数据集复杂度提升而增强,在CIFAR100上准确率提升9.44%,训练速度提升5-12倍,且参数更少。该成果为实用化量子增强人工智能铺平道路。
TimeWave是一款功能全面的计时器应用,超越了苹果自带时钟应用的功能。它支持创建流式计时器,让用户可以设置连续的任务计时,帮助专注工作。应用采用简洁的黑白设计,融入了Liquid Glass元素。内置冥想、番茄工作法、20-20-20护眼等多种计时模式,支持实时活动显示和Siri快捷指令。免费版提供基础功能,高级版需付费订阅。
沙特KAUST大学团队开发了专门针对阿拉伯语的AI模型家族"Hala",通过创新的"翻译再调优"技术路线,将高质量英语指令数据转化为450万规模的阿拉伯语语料库,训练出350M到9B参数的多个模型。在阿拉伯语专项测试中,Hala在同规模模型中表现最佳,证明了语言专门化策略的有效性,为阿拉伯语AI发展和其他语言的专门化模型提供了可复制的技术方案。