谷歌于今年春季正式发布了Gemma 4开源模型,承诺为本地AI带来更强的性能表现。随着多Token预测(MTP)草稿器的推出,谷歌在边缘AI领域的探索或将再度提速。谷歌表示,这些实验性模型采用了一种推测解码技术,能够对未来Token进行预判,相较于模型逐步生成Token的传统方式,可显著提升生成速度。
最新发布的Gemma模型与谷歌前沿AI产品Gemini共享底层技术架构,但经过专门调优以支持本地运行。Gemini针对谷歌自研TPU芯片进行了优化,依托超大规模集群及高速互联与存储架构运行。单块高性能AI加速卡即可以完整精度运行最大规格的Gemma 4模型,而通过量化处理后,该模型还可在消费级GPU上流畅运行。
Gemma赋予用户在本地硬件上自主探索AI的能力,无需将数据上传至谷歌或其他厂商的云端AI系统。此外,谷歌还将Gemma 4的授权协议升级为Apache 2.0,相较于此前版本所采用的自定义Gemma协议,开放程度大幅提升。然而,大多数用户在本地运行AI模型时,不可避免地受到硬件条件的制约,而MTP技术正是为解决这一问题而生。
大语言模型的自回归生成机制
Gemma(或Gemini)等大语言模型采用自回归方式生成Token,即每次基于上一个Token逐步输出下一个Token。无论该Token是输出中的填充词,还是复杂逻辑推理中的关键信息,每一步所消耗的计算资源是相同的。
本地自建AI系统面临的主要挑战之一,在于普通消费级系统内存的带宽远低于企业级硬件所采用的高带宽存储器(HBM)。这导致处理器在每生成一个Token时,都需要花费大量时间将模型参数从显存搬运至计算单元,期间大量算力处于闲置状态。
MTP正是利用这段空闲时间,绕过主模型的繁重计算,由轻量级草稿器生成推测Token。以Gemma 4 E2B版本为例,草稿模型仅有7400万参数,但在多个维度上经过针对性优化以加速推测Token的生成。例如,草稿器共享键值缓存(即大语言模型的活跃记忆),无需重新计算主模型已处理过的上下文信息。E2B和E4B草稿器还引入了稀疏解码技术,能够缩小可能Token的候选范围。
草稿Token不一定都是准确预测,因此需由目标模型(即Gemma)并行进行验证。一旦模型认可,整个序列将在一次前向传播中全部被采纳。与此同时,主模型也会额外正常生成一个Token。这意味着,在原本只能生成一个新Token的时间内,系统可以并行输出草稿序列中的多个Token和一个新生成Token。谷歌对于该流程的详细说明选择发布在X平台上,这一做法颇为特别。
本地推理即刻提速
谷歌目前已发布集成MTP技术的新版Gemma 4模型,用户现已可以上手体验。谷歌表示,MTP草稿器最高可将Gemma模型的运行速度提升至原来的三倍,但实际加速效果因硬件配置而有所差异。在谷歌内部测试中,搭载E2B和E4B的Gemma小型模型在Pixel手机上分别实现了2.8倍和3.1倍的速度提升;而在苹果M4芯片上运行的更大规格Gemma 4 31B模型,借助MTP同样获得了2.5倍的加速。
谷歌建议用户尝试在消费级硬件上运行26B MoE和31B Dense这两款更大规格的模型,而在移动设备上运行E2B和E4B模型时,电池续航也将得到明显改善。由于所有草稿Token最终均由Gemma核心模型进行验证,MTP技术理论上可实现"零质量损失"。这并不意味着每次输出都毫无瑕疵,但生成式AI系统中常见的错误不会因引入MTP而变得更加频繁。
用户无需复杂配置即可体验Gemma的推测解码功能。草稿器与Gemma核心模型同样采用Apache 2.0协议开放授权,并已支持MLX、VLLM、SGLang和Ollama等主流框架。
Q&A
Q1:Gemma 4 的多Token预测(MTP)技术是如何实现提速的?
A:MTP技术通过轻量级草稿器在主模型处理空闲期间预先生成推测Token,再由Gemma主模型并行验证。若草稿Token被接受,整个序列可在一次前向传播中全部采纳,同时主模型还会额外生成一个新Token。这种机制让系统在原本只能生成一个Token的时间内输出多个Token,最高可实现三倍的生成速度提升。
Q2:MTP提速会不会影响Gemma模型的输出质量?
A:谷歌表示,由于所有草稿Token最终都经过Gemma核心模型的验证,MTP技术可实现"零质量损失"。也就是说,生成式AI本身固有的一些误差不会因为引入MTP而加剧,输出质量与不使用MTP时保持一致。
Q3:普通用户怎么在自己的设备上使用Gemma 4的MTP功能?
A:目前谷歌已正式发布支持MTP的新版Gemma 4模型,草稿器与核心模型同样采用Apache 2.0协议开放授权。用户可通过MLX、VLLM、SGLang和Ollama等主流框架使用该功能,无需复杂配置即可上手体验推测解码带来的提速效果。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。