今天,我们正式发布Gemma 4 12B,这是我们最新推出的模型,旨在将具备智能体能力的多模态智能直接带到笔记本电脑上。Gemma 4 12B填补了轻量级E4B模型与更强大的26B混合专家(MoE)模型之间的空白,在显著降低内存占用的同时,保留了强大的处理能力。值得一提的是,这也是我们首款原生支持音频输入的中等规模模型。
得益于广大开发者社区的支持,Gemma 4系列模型的累计下载量已突破1.5亿次。开发者们基于这一系列模型构建了从辅助行动的可穿戴机械臂到企业级AI安全系统等各类创新应用。我们非常期待看到大家利用这一最新成员创造出更多精彩成果。
以下是Gemma 4 12B的核心亮点:
全新统一架构:无需多模态编码器,视觉与音频输入直接流入大语言模型主干网络进行处理。
卓越推理能力:在标准基准测试中,性能接近26B模型,支持强大的多步推理与智能体工作流。
笔记本可运行:仅需16GB显存或统一内存,即可在本地流畅运行。
开放可访问:基于Apache 2.0许可证发布,并获得开发者生态系统的广泛支持。
支持草稿推理加速:Gemma 4 12B内置多Token预测(MTP)草稿器,有效降低推理延迟。
上述特性的结合,使Gemma 4 12B得以在日常硬件上实现先进的多模态能力,同时不牺牲速度与推理性能。
高效且统一的新型架构
Gemma 4 12B的突出之处在于其对视觉和音频输入的高效整合方式。传统多模态模型通常依赖独立的编码器,先将图像和音频转换为中间表示,再传递给语言模型,这种分离式编码器结构会增加延迟并提高内存占用。为此,我们在训练Gemma 4 12B时采用了无编码器架构,实现了音频与视觉输入的直接接入。
具体而言,Gemma 4 12B对多模态输入的原生处理方式如下:
视觉处理:我们以一个轻量级嵌入模块替代了原有的视觉编码器,该模块仅包含一次矩阵乘法、位置嵌入和归一化操作,使大语言模型主干网络能够直接承担视觉处理任务。
音频处理:音频处理的简化程度更进一步,我们完全移除了音频编码器,直接将原始音频信号映射投影到与文本Token相同的维度空间。
立即上手使用
即刻体验:通过LM Studio、Ollama、Google AI Edge Gallery应用、Google AI Edge Eloquent应用或LiteRT-LM命令行工具,只需几步操作即可开始体验。
下载模型权重:可直接从Hugging Face和Kaggle下载预训练及指令微调版本的模型检查点。
集成与学习:查阅开发者文档及快速入门笔记本,快速完成集成。
灵活使用开发工具:支持通过Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM搭建本地推理流水线,也可使用Unsloth进行高效微调。
通过Gemma Skills解锁智能体开发:为了支持开发者使用最新Gemma技术构建智能体应用,我们正式发布官方技能库(Skills Repository)。该库提供了专为智能体与Gemma模型协同工作而设计的一系列技能。
灵活部署:可通过Google Cloud搭建生产级服务端点,并通过Gemini企业智能体平台模型花园、Cloud Run及GKE等方式灵活部署。
Q&A
Q1:Gemma 4 12B的无编码器架构有什么优势?
A:传统多模态模型通常需要独立的编码器来处理图像和音频,这会增加推理延迟和内存占用。Gemma 4 12B采用无编码器统一架构,视觉输入通过轻量级嵌入模块直接进入大语言模型主干,音频则直接映射到与文本Token相同的维度空间,从而降低了延迟和内存需求,同时保留了强大的多模态处理能力。
Q2:Gemma 4 12B对硬件配置有什么要求,普通笔记本能跑吗?
A:Gemma 4 12B对硬件要求相对友好,仅需16GB显存或统一内存即可在本地运行,适合主流消费级笔记本电脑。相比之下,它的内存占用不到26B MoE模型的一半,因此非常适合希望在本地体验高性能多模态大语言模型的开发者和普通用户。
Q3:Gemma 4 12B支持哪些开发工具和部署平台?
A:Gemma 4 12B支持多种主流开发工具,包括Hugging Face Transformers、llama.cpp、MLX、SGLang和vLLM,也可使用Unsloth进行微调。模型权重可从Hugging Face和Kaggle下载。此外,还支持通过Google Cloud、Cloud Run及GKE等平台进行生产级部署,并可通过LM Studio、Ollama等工具快速本地体验。
好文章,需要你的鼓励
Gazelle在北美市场发布全新Ultimate平台,推出两款三级电动自行车——Ultimate C380+ 2.0(售价4999美元)和Ultimate T11+(售价4499美元),最高时速可达28英里(45公里)。新平台搭载博世Performance Line Sport电机,提供85Nm扭矩,配备80mm悬挂前叉与55mm宽胎,兼顾高速稳定性与骑行舒适度。Gazelle坚持荷兰式骑乘哲学,以优质骑行体验而非堆砌硬件参数为核心竞争力。
匹兹堡大学研究团队提出SITA方法,用温度阶梯退火结合能量模型代替精确散度计算,高效训练流模型采样分子玻尔兹曼分布,在丙氨酸基准上超越现有方法。
Rivian邀请媒体赴犹他州帕克城试驾其"押注未来"的量产SUV——R2。这款售价4.5万美元起的车型正式开始交付,外观酷似缩小版R1S,搭载88kWh电池,驾驶质感更运动,能耗表现出色,峰值充电功率达240kW。车内配备200 TOPS边缘AI算力、触觉方向盘及双屏系统。但自动驾驶能力落后、V2X功能长期缺席等短板仍是隐忧。R2能否助Rivian完成量产跨越,是其生死之战。
这项研究揭示了图语言模型中"图沉没token"现象:激活值最高的图token往往是无意义的占位符,删除它们几乎不影响性能,说明当前模型未能真正利用图拓扑信息。