Gemma 4 12B正式发布:无编码器统一多模态架构首亮相

谷歌发布Gemma 4 12B模型,专为笔记本电脑设计,填补E4B与26B混合专家模型之间的空白。该模型采用无编码器统一架构,视觉与音频输入直接接入LLM主干网络,无需独立编码器,有效降低延迟和内存占用。仅需16GB显存即可本地运行,支持多步推理和智能体工作流,并首次支持原生音频输入。模型基于Apache 2.0协议开源,Gemma 4系列累计下载量已突破1.5亿次。

今天,我们正式发布Gemma 4 12B,这是我们最新推出的模型,旨在将具备智能体能力的多模态智能直接带到笔记本电脑上。Gemma 4 12B填补了轻量级E4B模型与更强大的26B混合专家(MoE)模型之间的空白,在显著降低内存占用的同时,保留了强大的处理能力。值得一提的是,这也是我们首款原生支持音频输入的中等规模模型。

得益于广大开发者社区的支持,Gemma 4系列模型的累计下载量已突破1.5亿次。开发者们基于这一系列模型构建了从辅助行动的可穿戴机械臂到企业级AI安全系统等各类创新应用。我们非常期待看到大家利用这一最新成员创造出更多精彩成果。

以下是Gemma 4 12B的核心亮点:

全新统一架构:无需多模态编码器,视觉与音频输入直接流入大语言模型主干网络进行处理。

卓越推理能力:在标准基准测试中,性能接近26B模型,支持强大的多步推理与智能体工作流。

笔记本可运行:仅需16GB显存或统一内存,即可在本地流畅运行。

开放可访问:基于Apache 2.0许可证发布,并获得开发者生态系统的广泛支持。

支持草稿推理加速:Gemma 4 12B内置多Token预测(MTP)草稿器,有效降低推理延迟。

上述特性的结合,使Gemma 4 12B得以在日常硬件上实现先进的多模态能力,同时不牺牲速度与推理性能。

高效且统一的新型架构

Gemma 4 12B的突出之处在于其对视觉和音频输入的高效整合方式。传统多模态模型通常依赖独立的编码器,先将图像和音频转换为中间表示,再传递给语言模型,这种分离式编码器结构会增加延迟并提高内存占用。为此,我们在训练Gemma 4 12B时采用了无编码器架构,实现了音频与视觉输入的直接接入。

具体而言,Gemma 4 12B对多模态输入的原生处理方式如下:

视觉处理:我们以一个轻量级嵌入模块替代了原有的视觉编码器,该模块仅包含一次矩阵乘法、位置嵌入和归一化操作,使大语言模型主干网络能够直接承担视觉处理任务。

音频处理:音频处理的简化程度更进一步,我们完全移除了音频编码器,直接将原始音频信号映射投影到与文本Token相同的维度空间。

立即上手使用

即刻体验:通过LM Studio、Ollama、Google AI Edge Gallery应用、Google AI Edge Eloquent应用或LiteRT-LM命令行工具,只需几步操作即可开始体验。

下载模型权重:可直接从Hugging Face和Kaggle下载预训练及指令微调版本的模型检查点。

集成与学习:查阅开发者文档及快速入门笔记本,快速完成集成。

灵活使用开发工具:支持通过Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM搭建本地推理流水线,也可使用Unsloth进行高效微调。

通过Gemma Skills解锁智能体开发:为了支持开发者使用最新Gemma技术构建智能体应用,我们正式发布官方技能库(Skills Repository)。该库提供了专为智能体与Gemma模型协同工作而设计的一系列技能。

灵活部署:可通过Google Cloud搭建生产级服务端点,并通过Gemini企业智能体平台模型花园、Cloud Run及GKE等方式灵活部署。

Q&A

Q1:Gemma 4 12B的无编码器架构有什么优势?

A:传统多模态模型通常需要独立的编码器来处理图像和音频,这会增加推理延迟和内存占用。Gemma 4 12B采用无编码器统一架构,视觉输入通过轻量级嵌入模块直接进入大语言模型主干,音频则直接映射到与文本Token相同的维度空间,从而降低了延迟和内存需求,同时保留了强大的多模态处理能力。

Q2:Gemma 4 12B对硬件配置有什么要求,普通笔记本能跑吗?

A:Gemma 4 12B对硬件要求相对友好,仅需16GB显存或统一内存即可在本地运行,适合主流消费级笔记本电脑。相比之下,它的内存占用不到26B MoE模型的一半,因此非常适合希望在本地体验高性能多模态大语言模型的开发者和普通用户。

Q3:Gemma 4 12B支持哪些开发工具和部署平台?

A:Gemma 4 12B支持多种主流开发工具,包括Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM,也可使用Unsloth进行微调。模型权重可从Hugging Face和Kaggle下载。此外,还支持通过Google Cloud、Cloud Run及GKE等平台进行生产级部署,并可通过LM Studio、Ollama等工具快速本地体验。

来源:Google DeepMind

0赞

好文章,需要你的鼓励

2026

06/10

15:54

分享

点赞

邮件订阅