今天,我们正式发布Gemma 4 12B,这是我们最新推出的模型,旨在将具备智能体能力的多模态智能直接带到笔记本电脑上。Gemma 4 12B填补了轻量级E4B模型与更强大的26B混合专家(MoE)模型之间的空白,在显著降低内存占用的同时,保留了强大的处理能力。值得一提的是,这也是我们首款原生支持音频输入的中等规模模型。
得益于广大开发者社区的支持,Gemma 4系列模型的累计下载量已突破1.5亿次。开发者们基于这一系列模型构建了从辅助行动的可穿戴机械臂到企业级AI安全系统等各类创新应用。我们非常期待看到大家利用这一最新成员创造出更多精彩成果。
以下是Gemma 4 12B的核心亮点:
全新统一架构:无需多模态编码器,视觉与音频输入直接流入大语言模型主干网络进行处理。
卓越推理能力:在标准基准测试中,性能接近26B模型,支持强大的多步推理与智能体工作流。
笔记本可运行:仅需16GB显存或统一内存,即可在本地流畅运行。
开放可访问:基于Apache 2.0许可证发布,并获得开发者生态系统的广泛支持。
支持草稿推理加速:Gemma 4 12B内置多Token预测(MTP)草稿器,有效降低推理延迟。
上述特性的结合,使Gemma 4 12B得以在日常硬件上实现先进的多模态能力,同时不牺牲速度与推理性能。
高效且统一的新型架构
Gemma 4 12B的突出之处在于其对视觉和音频输入的高效整合方式。传统多模态模型通常依赖独立的编码器,先将图像和音频转换为中间表示,再传递给语言模型,这种分离式编码器结构会增加延迟并提高内存占用。为此,我们在训练Gemma 4 12B时采用了无编码器架构,实现了音频与视觉输入的直接接入。
具体而言,Gemma 4 12B对多模态输入的原生处理方式如下:
视觉处理:我们以一个轻量级嵌入模块替代了原有的视觉编码器,该模块仅包含一次矩阵乘法、位置嵌入和归一化操作,使大语言模型主干网络能够直接承担视觉处理任务。
音频处理:音频处理的简化程度更进一步,我们完全移除了音频编码器,直接将原始音频信号映射投影到与文本Token相同的维度空间。
立即上手使用
即刻体验:通过LM Studio、Ollama、Google AI Edge Gallery应用、Google AI Edge Eloquent应用或LiteRT-LM命令行工具,只需几步操作即可开始体验。
下载模型权重:可直接从Hugging Face和Kaggle下载预训练及指令微调版本的模型检查点。
集成与学习:查阅开发者文档及快速入门笔记本,快速完成集成。
灵活使用开发工具:支持通过Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM搭建本地推理流水线,也可使用Unsloth进行高效微调。
通过Gemma Skills解锁智能体开发:为了支持开发者使用最新Gemma技术构建智能体应用,我们正式发布官方技能库(Skills Repository)。该库提供了专为智能体与Gemma模型协同工作而设计的一系列技能。
灵活部署:可通过Google Cloud搭建生产级服务端点,并通过Gemini企业智能体平台模型花园、Cloud Run及GKE等方式灵活部署。
Q&A
Q1:Gemma 4 12B的无编码器架构有什么优势?
A:传统多模态模型通常需要独立的编码器来处理图像和音频,这会增加推理延迟和内存占用。Gemma 4 12B采用无编码器统一架构,视觉输入通过轻量级嵌入模块直接进入大语言模型主干,音频则直接映射到与文本Token相同的维度空间,从而降低了延迟和内存需求,同时保留了强大的多模态处理能力。
Q2:Gemma 4 12B对硬件配置有什么要求,普通笔记本能跑吗?
A:Gemma 4 12B对硬件要求相对友好,仅需16GB显存或统一内存即可在本地运行,适合主流消费级笔记本电脑。相比之下,它的内存占用不到26B MoE模型的一半,因此非常适合希望在本地体验高性能多模态大语言模型的开发者和普通用户。
Q3:Gemma 4 12B支持哪些开发工具和部署平台?
A:Gemma 4 12B支持多种主流开发工具,包括Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM,也可使用Unsloth进行微调。模型权重可从Hugging Face和Kaggle下载。此外,还支持通过Google Cloud、Cloud Run及GKE等平台进行生产级部署,并可通过LM Studio、Ollama等工具快速本地体验。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。