谷歌于今年春季正式发布了Gemma 4开源模型,承诺为本地AI带来更强的性能表现。随着多Token预测(MTP)草稿器的推出,谷歌在边缘AI领域的探索或将再度提速。谷歌表示,这些实验性模型采用了一种推测解码技术,能够对未来Token进行预判,相较于模型逐步生成Token的传统方式,可显著提升生成速度。
最新发布的Gemma模型与谷歌前沿AI产品Gemini共享底层技术架构,但经过专门调优以支持本地运行。Gemini针对谷歌自研TPU芯片进行了优化,依托超大规模集群及高速互联与存储架构运行。单块高性能AI加速卡即可以完整精度运行最大规格的Gemma 4模型,而通过量化处理后,该模型还可在消费级GPU上流畅运行。
Gemma赋予用户在本地硬件上自主探索AI的能力,无需将数据上传至谷歌或其他厂商的云端AI系统。此外,谷歌还将Gemma 4的授权协议升级为Apache 2.0,相较于此前版本所采用的自定义Gemma协议,开放程度大幅提升。然而,大多数用户在本地运行AI模型时,不可避免地受到硬件条件的制约,而MTP技术正是为解决这一问题而生。
大语言模型的自回归生成机制
Gemma(或Gemini)等大语言模型采用自回归方式生成Token,即每次基于上一个Token逐步输出下一个Token。无论该Token是输出中的填充词,还是复杂逻辑推理中的关键信息,每一步所消耗的计算资源是相同的。
本地自建AI系统面临的主要挑战之一,在于普通消费级系统内存的带宽远低于企业级硬件所采用的高带宽存储器(HBM)。这导致处理器在每生成一个Token时,都需要花费大量时间将模型参数从显存搬运至计算单元,期间大量算力处于闲置状态。
MTP正是利用这段空闲时间,绕过主模型的繁重计算,由轻量级草稿器生成推测Token。以Gemma 4 E2B版本为例,草稿模型仅有7400万参数,但在多个维度上经过针对性优化以加速推测Token的生成。例如,草稿器共享键值缓存(即大语言模型的活跃记忆),无需重新计算主模型已处理过的上下文信息。E2B和E4B草稿器还引入了稀疏解码技术,能够缩小可能Token的候选范围。
草稿Token不一定都是准确预测,因此需由目标模型(即Gemma)并行进行验证。一旦模型认可,整个序列将在一次前向传播中全部被采纳。与此同时,主模型也会额外正常生成一个Token。这意味着,在原本只能生成一个新Token的时间内,系统可以并行输出草稿序列中的多个Token和一个新生成Token。谷歌对于该流程的详细说明选择发布在X平台上,这一做法颇为特别。
本地推理即刻提速
谷歌目前已发布集成MTP技术的新版Gemma 4模型,用户现已可以上手体验。谷歌表示,MTP草稿器最高可将Gemma模型的运行速度提升至原来的三倍,但实际加速效果因硬件配置而有所差异。在谷歌内部测试中,搭载E2B和E4B的Gemma小型模型在Pixel手机上分别实现了2.8倍和3.1倍的速度提升;而在苹果M4芯片上运行的更大规格Gemma 4 31B模型,借助MTP同样获得了2.5倍的加速。
谷歌建议用户尝试在消费级硬件上运行26B MoE和31B Dense这两款更大规格的模型,而在移动设备上运行E2B和E4B模型时,电池续航也将得到明显改善。由于所有草稿Token最终均由Gemma核心模型进行验证,MTP技术理论上可实现"零质量损失"。这并不意味着每次输出都毫无瑕疵,但生成式AI系统中常见的错误不会因引入MTP而变得更加频繁。
用户无需复杂配置即可体验Gemma的推测解码功能。草稿器与Gemma核心模型同样采用Apache 2.0协议开放授权,并已支持MLX、VLLM、SGLang和Ollama等主流框架。
Q&A
Q1:Gemma 4 的多Token预测(MTP)技术是如何实现提速的?
A:MTP技术通过轻量级草稿器在主模型处理空闲期间预先生成推测Token,再由Gemma主模型并行验证。若草稿Token被接受,整个序列可在一次前向传播中全部采纳,同时主模型还会额外生成一个新Token。这种机制让系统在原本只能生成一个Token的时间内输出多个Token,最高可实现三倍的生成速度提升。
Q2:MTP提速会不会影响Gemma模型的输出质量?
A:谷歌表示,由于所有草稿Token最终都经过Gemma核心模型的验证,MTP技术可实现"零质量损失"。也就是说,生成式AI本身固有的一些误差不会因为引入MTP而加剧,输出质量与不使用MTP时保持一致。
Q3:普通用户怎么在自己的设备上使用Gemma 4的MTP功能?
A:目前谷歌已正式发布支持MTP的新版Gemma 4模型,草稿器与核心模型同样采用Apache 2.0协议开放授权。用户可通过MLX、VLLM、SGLang和Ollama等主流框架使用该功能,无需复杂配置即可上手体验推测解码带来的提速效果。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。