Gemma 4 12B正式发布：无编码器统一多模态架构首亮相

谷歌发布Gemma 4 12B模型，专为笔记本电脑设计，填补E4B与26B混合专家模型之间的空白。该模型采用无编码器统一架构，视觉与音频输入直接接入LLM主干网络，无需独立编码器，有效降低延迟和内存占用。仅需16GB显存即可本地运行，支持多步推理和智能体工作流，并首次支持原生音频输入。模型基于Apache 2.0协议开源，Gemma 4系列累计下载量已突破1.5亿次。

今天，我们正式发布Gemma 4 12B，这是我们最新推出的模型，旨在将具备智能体能力的多模态智能直接带到笔记本电脑上。Gemma 4 12B填补了轻量级E4B模型与更强大的26B混合专家（MoE）模型之间的空白，在显著降低内存占用的同时，保留了强大的处理能力。值得一提的是，这也是我们首款原生支持音频输入的中等规模模型。

得益于广大开发者社区的支持，Gemma 4系列模型的累计下载量已突破1.5亿次。开发者们基于这一系列模型构建了从辅助行动的可穿戴机械臂到企业级AI安全系统等各类创新应用。我们非常期待看到大家利用这一最新成员创造出更多精彩成果。

以下是Gemma 4 12B的核心亮点：

全新统一架构：无需多模态编码器，视觉与音频输入直接流入大语言模型主干网络进行处理。

卓越推理能力：在标准基准测试中，性能接近26B模型，支持强大的多步推理与智能体工作流。

笔记本可运行：仅需16GB显存或统一内存，即可在本地流畅运行。

开放可访问：基于Apache 2.0许可证发布，并获得开发者生态系统的广泛支持。

支持草稿推理加速：Gemma 4 12B内置多Token预测（MTP）草稿器，有效降低推理延迟。

上述特性的结合，使Gemma 4 12B得以在日常硬件上实现先进的多模态能力，同时不牺牲速度与推理性能。

高效且统一的新型架构

Gemma 4 12B的突出之处在于其对视觉和音频输入的高效整合方式。传统多模态模型通常依赖独立的编码器，先将图像和音频转换为中间表示，再传递给语言模型，这种分离式编码器结构会增加延迟并提高内存占用。为此，我们在训练Gemma 4 12B时采用了无编码器架构，实现了音频与视觉输入的直接接入。

具体而言，Gemma 4 12B对多模态输入的原生处理方式如下：

视觉处理：我们以一个轻量级嵌入模块替代了原有的视觉编码器，该模块仅包含一次矩阵乘法、位置嵌入和归一化操作，使大语言模型主干网络能够直接承担视觉处理任务。

音频处理：音频处理的简化程度更进一步，我们完全移除了音频编码器，直接将原始音频信号映射投影到与文本Token相同的维度空间。

立即上手使用

即刻体验：通过LM Studio、Ollama、Google AI Edge Gallery应用、Google AI Edge Eloquent应用或LiteRT-LM命令行工具，只需几步操作即可开始体验。

下载模型权重：可直接从Hugging Face和Kaggle下载预训练及指令微调版本的模型检查点。

集成与学习：查阅开发者文档及快速入门笔记本，快速完成集成。

灵活使用开发工具：支持通过Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM搭建本地推理流水线，也可使用Unsloth进行高效微调。

通过Gemma Skills解锁智能体开发：为了支持开发者使用最新Gemma技术构建智能体应用，我们正式发布官方技能库（Skills Repository）。该库提供了专为智能体与Gemma模型协同工作而设计的一系列技能。

灵活部署：可通过Google Cloud搭建生产级服务端点，并通过Gemini企业智能体平台模型花园、Cloud Run及GKE等方式灵活部署。

Q&A

Q1：Gemma 4 12B的无编码器架构有什么优势？

A：传统多模态模型通常需要独立的编码器来处理图像和音频，这会增加推理延迟和内存占用。Gemma 4 12B采用无编码器统一架构，视觉输入通过轻量级嵌入模块直接进入大语言模型主干，音频则直接映射到与文本Token相同的维度空间，从而降低了延迟和内存需求，同时保留了强大的多模态处理能力。

Q2：Gemma 4 12B对硬件配置有什么要求，普通笔记本能跑吗？

A：Gemma 4 12B对硬件要求相对友好，仅需16GB显存或统一内存即可在本地运行，适合主流消费级笔记本电脑。相比之下，它的内存占用不到26B MoE模型的一半，因此非常适合希望在本地体验高性能多模态大语言模型的开发者和普通用户。

Q3：Gemma 4 12B支持哪些开发工具和部署平台？

A：Gemma 4 12B支持多种主流开发工具，包括Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM，也可使用Unsloth进行微调。模型权重可从Hugging Face和Kaggle下载。此外，还支持通过Google Cloud、Cloud Run及GKE等平台进行生产级部署，并可通过LM Studio、Ollama等工具快速本地体验。

来源：Google DeepMind

0赞

好文章，需要你的鼓励

Gemma 4 12B正式发布：无编码器统一多模态架构首亮相

来源：Google DeepMind

2026

06/10

15:54

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

博通报告：AI推理工作负载正加速向私有云迁移

苹果WWDC 2026主题演讲格式大变，这将成为新常态

macOS 27 Golden Gate明确提示应用在后台偷偷运行

iOS 27 终于为苹果日历应用带来了自然语言输入功能

OnePlus 15开始推送AirDrop快速共享支持功能

Festo推出GripperAI软件，助力机器人实现灵活柔性抓取

Gemini 3.5 Live Translate正式发布：流畅自然的实时语音翻译体验

Gemini 3.5实时翻译功能登陆Google Meet与翻译应用，新增"收听模式"

Nomad 推出透明版 Qi2 25W 无线充电器，科技感十足

Google Fi推出五大旅行升级功能，Pixel网络切换能力全面提升

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会