谷歌Gemma 4 AI模型借助多Token预测实现三倍提速

谷歌为Gemma 4开源模型推出多令牌预测(MTP)技术,通过推测解码预判未来令牌,使本地推理速度最高提升3倍。测试显示,Gemma E2B和E4B在Pixel手机上分别提速2.8倍和3.1倍,Gemma 4 31B在苹果M4芯片上提速2.5倍。MTP草稿模型共享主模型的键值缓存,减少重复计算,且经主模型并行验证,确保输出质量不下降。相关模型已通过Apache 2.0许可开放。

谷歌于今年春季正式发布了Gemma 4开源模型,承诺为本地AI带来更强的性能表现。随着多Token预测(MTP)草稿器的推出,谷歌在边缘AI领域的探索或将再度提速。谷歌表示,这些实验性模型采用了一种推测解码技术,能够对未来Token进行预判,相较于模型逐步生成Token的传统方式,可显著提升生成速度。

最新发布的Gemma模型与谷歌前沿AI产品Gemini共享底层技术架构,但经过专门调优以支持本地运行。Gemini针对谷歌自研TPU芯片进行了优化,依托超大规模集群及高速互联与存储架构运行。单块高性能AI加速卡即可以完整精度运行最大规格的Gemma 4模型,而通过量化处理后,该模型还可在消费级GPU上流畅运行。

Gemma赋予用户在本地硬件上自主探索AI的能力,无需将数据上传至谷歌或其他厂商的云端AI系统。此外,谷歌还将Gemma 4的授权协议升级为Apache 2.0,相较于此前版本所采用的自定义Gemma协议,开放程度大幅提升。然而,大多数用户在本地运行AI模型时,不可避免地受到硬件条件的制约,而MTP技术正是为解决这一问题而生。

大语言模型的自回归生成机制

Gemma(或Gemini)等大语言模型采用自回归方式生成Token,即每次基于上一个Token逐步输出下一个Token。无论该Token是输出中的填充词,还是复杂逻辑推理中的关键信息,每一步所消耗的计算资源是相同的。

本地自建AI系统面临的主要挑战之一,在于普通消费级系统内存的带宽远低于企业级硬件所采用的高带宽存储器(HBM)。这导致处理器在每生成一个Token时,都需要花费大量时间将模型参数从显存搬运至计算单元,期间大量算力处于闲置状态。

MTP正是利用这段空闲时间,绕过主模型的繁重计算,由轻量级草稿器生成推测Token。以Gemma 4 E2B版本为例,草稿模型仅有7400万参数,但在多个维度上经过针对性优化以加速推测Token的生成。例如,草稿器共享键值缓存(即大语言模型的活跃记忆),无需重新计算主模型已处理过的上下文信息。E2B和E4B草稿器还引入了稀疏解码技术,能够缩小可能Token的候选范围。

草稿Token不一定都是准确预测,因此需由目标模型(即Gemma)并行进行验证。一旦模型认可,整个序列将在一次前向传播中全部被采纳。与此同时,主模型也会额外正常生成一个Token。这意味着,在原本只能生成一个新Token的时间内,系统可以并行输出草稿序列中的多个Token和一个新生成Token。谷歌对于该流程的详细说明选择发布在X平台上,这一做法颇为特别。

本地推理即刻提速

谷歌目前已发布集成MTP技术的新版Gemma 4模型,用户现已可以上手体验。谷歌表示,MTP草稿器最高可将Gemma模型的运行速度提升至原来的三倍,但实际加速效果因硬件配置而有所差异。在谷歌内部测试中,搭载E2B和E4B的Gemma小型模型在Pixel手机上分别实现了2.8倍和3.1倍的速度提升;而在苹果M4芯片上运行的更大规格Gemma 4 31B模型,借助MTP同样获得了2.5倍的加速。

谷歌建议用户尝试在消费级硬件上运行26B MoE和31B Dense这两款更大规格的模型,而在移动设备上运行E2B和E4B模型时,电池续航也将得到明显改善。由于所有草稿Token最终均由Gemma核心模型进行验证,MTP技术理论上可实现"零质量损失"。这并不意味着每次输出都毫无瑕疵,但生成式AI系统中常见的错误不会因引入MTP而变得更加频繁。

用户无需复杂配置即可体验Gemma的推测解码功能。草稿器与Gemma核心模型同样采用Apache 2.0协议开放授权,并已支持MLX、VLLM、SGLang和Ollama等主流框架。

Q&A

Q1:Gemma 4 的多Token预测(MTP)技术是如何实现提速的?

A:MTP技术通过轻量级草稿器在主模型处理空闲期间预先生成推测Token,再由Gemma主模型并行验证。若草稿Token被接受,整个序列可在一次前向传播中全部采纳,同时主模型还会额外生成一个新Token。这种机制让系统在原本只能生成一个Token的时间内输出多个Token,最高可实现三倍的生成速度提升。

Q2:MTP提速会不会影响Gemma模型的输出质量?

A:谷歌表示,由于所有草稿Token最终都经过Gemma核心模型的验证,MTP技术可实现"零质量损失"。也就是说,生成式AI本身固有的一些误差不会因为引入MTP而加剧,输出质量与不使用MTP时保持一致。

Q3:普通用户怎么在自己的设备上使用Gemma 4的MTP功能?

A:目前谷歌已正式发布支持MTP的新版Gemma 4模型,草稿器与核心模型同样采用Apache 2.0协议开放授权。用户可通过MLX、VLLM、SGLang和Ollama等主流框架使用该功能,无需复杂配置即可上手体验推测解码带来的提速效果。

来源:Arstechnica

0赞

好文章,需要你的鼓励

2026

05/11

14:10

分享

点赞

邮件订阅