生成式AI的爆发式增长将内存成本推向了历史高位,谷歌作为这一趋势的重要推手,也开始着手推出对内存需求更为友好的本地AI模型。近日,谷歌宣布发布全新Gemma 4模型,填补了今年早些时候发布的产品线中的空白。这款新模型效率极高,普通消费级笔记本电脑即可流畅运行。
今年4月,谷歌发布了Gemma 4系列的四款模型,同时宣布转向更为开放的Apache 2.0授权协议。最初发布的模型包括两款面向移动端优化的版本(E2B和E4B),以及两款面向高强度工作需求的模型(26B混合专家模型和31B密集模型)。然而,这四款产品之间存在一段较大的能力空白,而此次发布的新模型正好填补了这一空缺。
Gemma 4 12B的能力远超移动版本,同时也无需价值两万美元的AI加速卡即可在本地运行。谷歌表示,Gemma 4 12B的独特之处在于,它可以在众多消费级笔记本电脑上运行,同时不会牺牲模型质量。只要设备具备16GB系统内存或显存,这款拥有120亿参数的模型便可正常使用。其总体内存占用约为Gemma 4 26B混合专家模型的一半,谷歌声称新模型在基准测试方面的表现几乎与后者不相上下。
谷歌表示,新模型具备复杂的多步推理能力以及智能体工作流处理能力,而这些此前只有更大体量的Gemma版本才能实现。尽管参数量更少,Gemma 4 12B仍搭载了最新设计的多Token预测(MTP)草稿器,该技术能够利用空闲的处理周期来预测未来可能生成的Token,从而显著提升运行速度与效率。谷歌此前已为其他Gemma 4模型推出了可选的MTP版本,而Gemma 4 12B是首款将MTP作为默认配置开箱即用的模型。
在多模态处理方面,Gemma 4 12B也采用了全新方案,进一步提升了效率。Gemma 4系列原生支持多模态输入,可接受文本、音频和图像。大多数生成式AI模型(包括其他Gemma 4版本)通常使用专用编码器处理非文本输入,再将数据传递给大语言模型,这种方式虽然有效,但会增加延迟并占用更多内存。
在这款中等体量的新模型中,谷歌为视觉处理实现了一套精简的嵌入模块,采用单矩阵乘法与位置嵌入技术,使数据在保留空间感知信息的前提下直接传递至大语言模型,从而省去了臃肿的中间编码器。而在音频处理方面,则完全取消了编码环节——开发团队找到了一种方法,可将原始音频信号直接投影为与文本Token相同的向量表示。
如果你想体验全新的Gemma 4模型,可以通过LM Studio、Google AI Edge Gallery等工具在线直接访问,无需本地下载。不过,Gemma 4 12B的核心亮点在于支持完全本地、自主运行。只要内存满足要求,模型权重现已可在Kaggle和Hugging Face上立即下载,文件大小约为18GB。
Q&A
Q1:Gemma 4 12B需要多少内存才能运行?
A:谷歌官方表示,Gemma 4 12B只需设备具备16GB系统内存或显存即可正常运行,无需昂贵的专用AI加速硬件。模型权重文件大小约为18GB,可在Kaggle和Hugging Face平台上免费下载,适合大多数主流消费级笔记本电脑使用。
Q2:Gemma 4 12B的多Token预测(MTP)功能有什么作用?
A:多Token预测(MTP)是Gemma 4 12B内置的一项新技术,能够利用模型运行过程中的空闲处理周期,预先计算未来可能生成的Token。这一机制能够显著提升模型的生成速度与整体运行效率。值得注意的是,Gemma 4 12B是Gemma 4系列中首款将MTP作为默认功能直接内置的模型,其他版本仅提供可选安装。
Q3:Gemma 4 12B如何处理图像和音频输入?
A:Gemma 4 12B在多模态处理上进行了创新优化。视觉方面,采用单矩阵乘法与位置嵌入的精简嵌入模块,数据可直接传递给大语言模型,无需额外的中间编码器;音频方面则更为彻底,完全省去编码过程,直接将原始音频信号投影为与文本Token相同的向量,从而降低延迟并减少内存消耗。
好文章,需要你的鼓励
大众集团旗下首款平价电动车ID. Polo与Cupra Raval已在西班牙马托雷利工厂正式下线。两款车型分别起售于24,995欧元和26,000欧元,同属"电动城市车家族"系列,基于MEB+共享平台打造,节省约6亿欧元成本。ID. Polo提供37kWh和52kWh两种电池选项,续航最高454公里;Cupra Raval续航约450公里。大众集团CEO表示,此举旨在加速欧洲电动化进程,应对比亚迪等中国品牌的市场竞争压力。
厦门大学与吉林大学联合提出SAAS框架,通过动态建模AI的搜索边界并结合分阶段强化学习,有效解决代理搜索中过度检索问题,在保持准确率的同时大幅减少冗余搜索。
施耐德电气在2026年Datacloud全球大会上探讨了数据中心模块化设计的未来。随着部署周期从5年缩短至18至24个月,加之GPU硬件刷新加速,数据中心运营商正加速采用模块化设计方案。通过标准化组件与固定配置,模块化设计可有效压缩交付周期、提升可扩展性。本文重点梳理了十大模块化数据中心设计核心组件,助力运营商优化设计与组装流程。
本文介绍T-Tech研究院提出的TRB方法,通过在OPD训练早期引入信任域约束的师生混合采样策略,改善弱学生早期生成质量,热身结束后自动退出,在数学推理蒸馏任务中取得最优平均表现。