Gemma 4 12B:谷歌推出可在16GB内存笔记本上运行的新模型

谷歌发布了Gemma 4 12B模型,填补了今年4月发布的Gemma 4系列产品线中的空白。该模型拥有120亿参数,仅需16GB系统内存或显存即可在普通消费级笔记本上本地运行,内存占用约为Gemma 4 26B MoE的一半,但性能接近。新模型内置多令牌预测(MTP)技术,支持文本、音频和图像多模态输入,并通过简化的视觉嵌入模块降低延迟与内存消耗。模型权重已在Kaggle和Hugging Face上线,大小约18GB。

生成式AI的爆发式增长将内存成本推向了历史高位,谷歌作为这一趋势的重要推手,也开始着手推出对内存需求更为友好的本地AI模型。近日,谷歌宣布发布全新Gemma 4模型,填补了今年早些时候发布的产品线中的空白。这款新模型效率极高,普通消费级笔记本电脑即可流畅运行。

今年4月,谷歌发布了Gemma 4系列的四款模型,同时宣布转向更为开放的Apache 2.0授权协议。最初发布的模型包括两款面向移动端优化的版本(E2B和E4B),以及两款面向高强度工作需求的模型(26B混合专家模型和31B密集模型)。然而,这四款产品之间存在一段较大的能力空白,而此次发布的新模型正好填补了这一空缺。

Gemma 4 12B的能力远超移动版本,同时也无需价值两万美元的AI加速卡即可在本地运行。谷歌表示,Gemma 4 12B的独特之处在于,它可以在众多消费级笔记本电脑上运行,同时不会牺牲模型质量。只要设备具备16GB系统内存或显存,这款拥有120亿参数的模型便可正常使用。其总体内存占用约为Gemma 4 26B混合专家模型的一半,谷歌声称新模型在基准测试方面的表现几乎与后者不相上下。

谷歌表示,新模型具备复杂的多步推理能力以及智能体工作流处理能力,而这些此前只有更大体量的Gemma版本才能实现。尽管参数量更少,Gemma 4 12B仍搭载了最新设计的多Token预测(MTP)草稿器,该技术能够利用空闲的处理周期来预测未来可能生成的Token,从而显著提升运行速度与效率。谷歌此前已为其他Gemma 4模型推出了可选的MTP版本,而Gemma 4 12B是首款将MTP作为默认配置开箱即用的模型。

在多模态处理方面,Gemma 4 12B也采用了全新方案,进一步提升了效率。Gemma 4系列原生支持多模态输入,可接受文本、音频和图像。大多数生成式AI模型(包括其他Gemma 4版本)通常使用专用编码器处理非文本输入,再将数据传递给大语言模型,这种方式虽然有效,但会增加延迟并占用更多内存。

在这款中等体量的新模型中,谷歌为视觉处理实现了一套精简的嵌入模块,采用单矩阵乘法与位置嵌入技术,使数据在保留空间感知信息的前提下直接传递至大语言模型,从而省去了臃肿的中间编码器。而在音频处理方面,则完全取消了编码环节——开发团队找到了一种方法,可将原始音频信号直接投影为与文本Token相同的向量表示。

如果你想体验全新的Gemma 4模型,可以通过LM Studio、Google AI Edge Gallery等工具在线直接访问,无需本地下载。不过,Gemma 4 12B的核心亮点在于支持完全本地、自主运行。只要内存满足要求,模型权重现已可在Kaggle和Hugging Face上立即下载,文件大小约为18GB。

Q&A

Q1:Gemma 4 12B需要多少内存才能运行?

A:谷歌官方表示,Gemma 4 12B只需设备具备16GB系统内存或显存即可正常运行,无需昂贵的专用AI加速硬件。模型权重文件大小约为18GB,可在Kaggle和Hugging Face平台上免费下载,适合大多数主流消费级笔记本电脑使用。

Q2:Gemma 4 12B的多Token预测(MTP)功能有什么作用?

A:多Token预测(MTP)是Gemma 4 12B内置的一项新技术,能够利用模型运行过程中的空闲处理周期,预先计算未来可能生成的Token。这一机制能够显著提升模型的生成速度与整体运行效率。值得注意的是,Gemma 4 12B是Gemma 4系列中首款将MTP作为默认功能直接内置的模型,其他版本仅提供可选安装。

Q3:Gemma 4 12B如何处理图像和音频输入?

A:Gemma 4 12B在多模态处理上进行了创新优化。视觉方面,采用单矩阵乘法与位置嵌入的精简嵌入模块,数据可直接传递给大语言模型,无需额外的中间编码器;音频方面则更为彻底,完全省去编码过程,直接将原始音频信号投影为与文本Token相同的向量,从而降低延迟并减少内存消耗。

来源:Arstechnica

0赞

好文章,需要你的鼓励

2026

06/04

11:21

分享

点赞

邮件订阅