Gemma 4 12B：谷歌推出可在16GB内存笔记本上运行的新模型

谷歌发布了Gemma 4 12B模型，填补了今年4月发布的Gemma 4系列产品线中的空白。该模型拥有120亿参数，仅需16GB系统内存或显存即可在普通消费级笔记本上本地运行，内存占用约为Gemma 4 26B MoE的一半，但性能接近。新模型内置多令牌预测（MTP）技术，支持文本、音频和图像多模态输入，并通过简化的视觉嵌入模块降低延迟与内存消耗。模型权重已在Kaggle和Hugging Face上线，大小约18GB。

生成式AI的爆发式增长将内存成本推向了历史高位，谷歌作为这一趋势的重要推手，也开始着手推出对内存需求更为友好的本地AI模型。近日，谷歌宣布发布全新Gemma 4模型，填补了今年早些时候发布的产品线中的空白。这款新模型效率极高，普通消费级笔记本电脑即可流畅运行。

今年4月，谷歌发布了Gemma 4系列的四款模型，同时宣布转向更为开放的Apache 2.0授权协议。最初发布的模型包括两款面向移动端优化的版本（E2B和E4B），以及两款面向高强度工作需求的模型（26B混合专家模型和31B密集模型）。然而，这四款产品之间存在一段较大的能力空白，而此次发布的新模型正好填补了这一空缺。

Gemma 4 12B的能力远超移动版本，同时也无需价值两万美元的AI加速卡即可在本地运行。谷歌表示，Gemma 4 12B的独特之处在于，它可以在众多消费级笔记本电脑上运行，同时不会牺牲模型质量。只要设备具备16GB系统内存或显存，这款拥有120亿参数的模型便可正常使用。其总体内存占用约为Gemma 4 26B混合专家模型的一半，谷歌声称新模型在基准测试方面的表现几乎与后者不相上下。

谷歌表示，新模型具备复杂的多步推理能力以及智能体工作流处理能力，而这些此前只有更大体量的Gemma版本才能实现。尽管参数量更少，Gemma 4 12B仍搭载了最新设计的多Token预测（MTP）草稿器，该技术能够利用空闲的处理周期来预测未来可能生成的Token，从而显著提升运行速度与效率。谷歌此前已为其他Gemma 4模型推出了可选的MTP版本，而Gemma 4 12B是首款将MTP作为默认配置开箱即用的模型。

在多模态处理方面，Gemma 4 12B也采用了全新方案，进一步提升了效率。Gemma 4系列原生支持多模态输入，可接受文本、音频和图像。大多数生成式AI模型（包括其他Gemma 4版本）通常使用专用编码器处理非文本输入，再将数据传递给大语言模型，这种方式虽然有效，但会增加延迟并占用更多内存。

在这款中等体量的新模型中，谷歌为视觉处理实现了一套精简的嵌入模块，采用单矩阵乘法与位置嵌入技术，使数据在保留空间感知信息的前提下直接传递至大语言模型，从而省去了臃肿的中间编码器。而在音频处理方面，则完全取消了编码环节——开发团队找到了一种方法，可将原始音频信号直接投影为与文本Token相同的向量表示。

如果你想体验全新的Gemma 4模型，可以通过LM Studio、Google AI Edge Gallery等工具在线直接访问，无需本地下载。不过，Gemma 4 12B的核心亮点在于支持完全本地、自主运行。只要内存满足要求，模型权重现已可在Kaggle和Hugging Face上立即下载，文件大小约为18GB。

Q&A

Q1：Gemma 4 12B需要多少内存才能运行？

A：谷歌官方表示，Gemma 4 12B只需设备具备16GB系统内存或显存即可正常运行，无需昂贵的专用AI加速硬件。模型权重文件大小约为18GB，可在Kaggle和Hugging Face平台上免费下载，适合大多数主流消费级笔记本电脑使用。

Q2：Gemma 4 12B的多Token预测（MTP）功能有什么作用？

A：多Token预测（MTP）是Gemma 4 12B内置的一项新技术，能够利用模型运行过程中的空闲处理周期，预先计算未来可能生成的Token。这一机制能够显著提升模型的生成速度与整体运行效率。值得注意的是，Gemma 4 12B是Gemma 4系列中首款将MTP作为默认功能直接内置的模型，其他版本仅提供可选安装。

Q3：Gemma 4 12B如何处理图像和音频输入？

A：Gemma 4 12B在多模态处理上进行了创新优化。视觉方面，采用单矩阵乘法与位置嵌入的精简嵌入模块，数据可直接传递给大语言模型，无需额外的中间编码器；音频方面则更为彻底，完全省去编码过程，直接将原始音频信号投影为与文本Token相同的向量，从而降低延迟并减少内存消耗。

来源：Arstechnica

0赞

好文章，需要你的鼓励

Gemma 4 12B：谷歌推出可在16GB内存笔记本上运行的新模型

来源：Arstechnica

2026

06/04

11:21

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

英国监管机构要求谷歌在AI搜索结果中明确标注来源并允许出版商选择退出

微软全新AI图像工具在关键评测中超越谷歌Nano Banana

Alphabet创850亿美元融资纪录，AI投资热度持续高涨

欧盟推进技术主权计划，降低对美国科技公司的依赖

智能体如何突破三大障碍，重塑客户服务格局

我用真实病历测试了微软Copilot Health，结果出乎意料

AI引发认知疲劳，如何在高效工作中保持清醒？

基准测试是一个过程，而非一个数据集

Tod Machover荣获乔治·皮博迪奖章，彰显其在音乐与科技领域的卓越贡献

Gemini Go正式上线，取代Android Go手机上的谷歌助手

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会