谷歌于今年春季正式发布了Gemma 4开源模型,承诺为本地AI带来更强的性能表现。随着多Token预测(MTP)草稿器的推出,谷歌在边缘AI领域的探索或将再度提速。谷歌表示,这些实验性模型采用了一种推测解码技术,能够对未来Token进行预判,相较于模型逐步生成Token的传统方式,可显著提升生成速度。
最新发布的Gemma模型与谷歌前沿AI产品Gemini共享底层技术架构,但经过专门调优以支持本地运行。Gemini针对谷歌自研TPU芯片进行了优化,依托超大规模集群及高速互联与存储架构运行。单块高性能AI加速卡即可以完整精度运行最大规格的Gemma 4模型,而通过量化处理后,该模型还可在消费级GPU上流畅运行。
Gemma赋予用户在本地硬件上自主探索AI的能力,无需将数据上传至谷歌或其他厂商的云端AI系统。此外,谷歌还将Gemma 4的授权协议升级为Apache 2.0,相较于此前版本所采用的自定义Gemma协议,开放程度大幅提升。然而,大多数用户在本地运行AI模型时,不可避免地受到硬件条件的制约,而MTP技术正是为解决这一问题而生。
大语言模型的自回归生成机制
Gemma(或Gemini)等大语言模型采用自回归方式生成Token,即每次基于上一个Token逐步输出下一个Token。无论该Token是输出中的填充词,还是复杂逻辑推理中的关键信息,每一步所消耗的计算资源是相同的。
本地自建AI系统面临的主要挑战之一,在于普通消费级系统内存的带宽远低于企业级硬件所采用的高带宽存储器(HBM)。这导致处理器在每生成一个Token时,都需要花费大量时间将模型参数从显存搬运至计算单元,期间大量算力处于闲置状态。
MTP正是利用这段空闲时间,绕过主模型的繁重计算,由轻量级草稿器生成推测Token。以Gemma 4 E2B版本为例,草稿模型仅有7400万参数,但在多个维度上经过针对性优化以加速推测Token的生成。例如,草稿器共享键值缓存(即大语言模型的活跃记忆),无需重新计算主模型已处理过的上下文信息。E2B和E4B草稿器还引入了稀疏解码技术,能够缩小可能Token的候选范围。
草稿Token不一定都是准确预测,因此需由目标模型(即Gemma)并行进行验证。一旦模型认可,整个序列将在一次前向传播中全部被采纳。与此同时,主模型也会额外正常生成一个Token。这意味着,在原本只能生成一个新Token的时间内,系统可以并行输出草稿序列中的多个Token和一个新生成Token。谷歌对于该流程的详细说明选择发布在X平台上,这一做法颇为特别。
本地推理即刻提速
谷歌目前已发布集成MTP技术的新版Gemma 4模型,用户现已可以上手体验。谷歌表示,MTP草稿器最高可将Gemma模型的运行速度提升至原来的三倍,但实际加速效果因硬件配置而有所差异。在谷歌内部测试中,搭载E2B和E4B的Gemma小型模型在Pixel手机上分别实现了2.8倍和3.1倍的速度提升;而在苹果M4芯片上运行的更大规格Gemma 4 31B模型,借助MTP同样获得了2.5倍的加速。
谷歌建议用户尝试在消费级硬件上运行26B MoE和31B Dense这两款更大规格的模型,而在移动设备上运行E2B和E4B模型时,电池续航也将得到明显改善。由于所有草稿Token最终均由Gemma核心模型进行验证,MTP技术理论上可实现"零质量损失"。这并不意味着每次输出都毫无瑕疵,但生成式AI系统中常见的错误不会因引入MTP而变得更加频繁。
用户无需复杂配置即可体验Gemma的推测解码功能。草稿器与Gemma核心模型同样采用Apache 2.0协议开放授权,并已支持MLX、VLLM、SGLang和Ollama等主流框架。
Q&A
Q1:Gemma 4 的多Token预测(MTP)技术是如何实现提速的?
A:MTP技术通过轻量级草稿器在主模型处理空闲期间预先生成推测Token,再由Gemma主模型并行验证。若草稿Token被接受,整个序列可在一次前向传播中全部采纳,同时主模型还会额外生成一个新Token。这种机制让系统在原本只能生成一个Token的时间内输出多个Token,最高可实现三倍的生成速度提升。
Q2:MTP提速会不会影响Gemma模型的输出质量?
A:谷歌表示,由于所有草稿Token最终都经过Gemma核心模型的验证,MTP技术可实现"零质量损失"。也就是说,生成式AI本身固有的一些误差不会因为引入MTP而加剧,输出质量与不使用MTP时保持一致。
Q3:普通用户怎么在自己的设备上使用Gemma 4的MTP功能?
A:目前谷歌已正式发布支持MTP的新版Gemma 4模型,草稿器与核心模型同样采用Apache 2.0协议开放授权。用户可通过MLX、VLLM、SGLang和Ollama等主流框架使用该功能,无需复杂配置即可上手体验推测解码带来的提速效果。
好文章,需要你的鼓励
近期数据显示,2026年5月前企业已宣布约9万个与AI相关的裁员岗位,部分预测称未来五年美国15%的工作将被AI取代。然而,Ramp与Revelio Labs追踪近2.2万家企业的最新报告显示:重度投入AI的企业反而实现了更快的人员增长,包括初级岗位在内的各职能人数均有上升。但这一数据主要来自技术型企业,能否普遍适用仍存疑。报告同时指出,资源匮乏的企业可能在AI浪潮中持续落后。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
AI数据中心开发商向多家电力公司同时提交大负荷接入申请以确定选址,导致区域需求预测虚高、电网投资失衡。美国联邦能源监管委员会(FERC)及ERCOT、PJM、SPP等机构正推动"承诺优先"规划机制,要求项目具备实质性商业承诺方可纳入长期传输规划。谷歌、亚马逊、微软、OpenAI等科技巨头支持建立标准化的项目成熟度评估体系,但各方在具体机制上仍存分歧。发电建设问题尚未被纳入联邦传输改革议程。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。