谷歌的Gemini AI模型在过去一年中取得了巨大进步,但用户只能按照谷歌的条款使用Gemini。该公司的Gemma开放权重模型提供了更多自由度,但一年多前发布的Gemma 3已经有些过时。从今天开始,开发者可以开始使用Gemma 4,该模型提供四种针对本地使用优化的规格。谷歌也认识到开发者对AI许可证的不满,因此放弃了定制的Gemma许可证。
与过去版本的开放权重模型一样,谷歌设计Gemma 4可在本地机器上使用。当然,这可能意味着很多情况。两个大型Gemma变体——26B专家混合模型和31B稠密模型,设计为在单个80GB英伟达H100 GPU上以bfloat16格式运行而无需量化。诚然,这是一个价值2万美元的AI加速器,但仍然是本地硬件。如果量化为低精度运行,这些大型模型将适合消费级GPU。
谷歌还声称专注于减少延迟,以真正利用Gemma的本地处理优势。26B专家混合模型在推理模式下只激活其260亿参数中的38亿个,提供比同等规模模型更高的Token每秒处理速度。同时,31B稠密模型更注重质量而非速度,但谷歌期望开发者针对特定用途进行微调。
另外两个Gemma 4模型——高效2B(E2B)和高效4B(E4B),针对移动设备。这些选项设计为在推理过程中保持低内存使用,以有效的20亿或40亿参数运行。谷歌表示,Pixel团队与高通和联发科密切合作,为智能手机、树莓派和Jetson Nano等设备优化这些模型。它们不仅比Gemma 3使用更少的内存和电池,谷歌还宣称这次实现了"近零延迟"。
更强大,更开放
据报告,所有新的Gemma 4模型都将让Gemma 3望尘莫及——谷歌声称这些是您可以在本地硬件上运行的最强大模型。谷歌表示,Gemma 31B将在顶级开源AI模型Arena排行榜上排名第三,仅次于GLM-5和Kimi 2.5。然而,即使是最大的Gemma 4变体也只是这些模型规模的一小部分,理论上运行成本要低得多。
基于与谷歌Gemini 3闭源模型相同的底层技术,Gemma 4提供了改进的推理、数学和指令遵循能力。在过去一年中,AI也已转向智能体工作流管理,Gemma 4已为这一变化做好准备,支持原生函数调用、结构化JSON输出以及常用工具和API的原生指令。
代码生成也正在成为生成式AI的核心应用,谷歌表示Gemma 4也针对此进行了优化。您可以使用任何数量的AI系统生成合格的代码,但像Gemini Pro和Claude Code这样的强大表现者都是云服务。
谷歌表示,在离线环境中,如果您有运行较大变体的硬件,Gemma 4可以为您提供同样高质量的代码。同样,谷歌表示Gemma 4在处理视觉输入方面更出色,使OCR和图表理解等任务在本地系统上更加可靠。高效的E2B和E4B模型还原生支持语音识别——Gemma 3系列也有这个功能,但谷歌似乎暗示Gemma 4在这方面表现更好。
Gemma 4支持140多种语言,无论您使用哪种语言,Gemma 4都可以处理大量文字。边缘模型的上下文窗口现在为128k Token,26B和31B模型获得256k Token。对于本地模型来说这很不错,但基于云的Gemini模型更慷慨,拥有100万Token的上下文。
所有声称的性能提升都很不错,但许可证调整可能是Gemma最重要的变化。谷歌开放模型的以前版本采用定制的谷歌许可证,许多开发者认为过于严格。Gemma 3许可证有严格的禁用政策,谷歌可以单方面更新,并要求开发者在所有基于Gemma的项目中执行谷歌的规则。它甚至可能被解读为将许可证转移到使用Gemma产生的合成数据创建的其他AI模型。这使得许多开发者对使用谷歌开放模型构建项目感到担忧。
相比之下,Apache 2.0许可证更加宽松,没有过度的使用条款或商业限制。开发者熟悉并认可Apache许可证,谷歌不能在未来某天就决定许可证的工作方式不同。谷歌相信,以这种方式给开发者更多对其数据和部署计划的控制权,将鼓励他们在更多项目中使用Gemma,并扩展该公司坚持称为"Gemmaverse"的生态系统。
新Nano即将到来
E2B和E4B的发布也显示了谷歌在智能手机AI方面的发展方向。谷歌Pixel和其他一些手机运行名为Gemini Nano的本地AI模型。这就是这些安卓手机如何检测电话和短信诈骗、总结笔记或创建通话摘要而无需将数据发送到云端。谷歌代表指出,Gemini Nano一直来源于Gemma模型,但这对于Gemini Nano 4的下一代更新尤其如此。
这是谷歌首次确认其最小智能手机AI模型将有更新版本。目前在Pixel手机上运行的Gemini Nano 3基于Gemma 3n,但谷歌向Ars Technica确认,下一代Nano 4将拥有基于Gemma 4 E2B和E4B的2B和4B变体。
该公司邀请开发者在最新的AI Core开发者预览版中使用Gemma E2B和E4B开始原型智能体工作流。使用这些新模型设计的系统将在Gemini Nano 4发布时向前兼容。我们可能在几周后的I/O大会上听到更多相关信息。
您可以立即在AI Studio(31B和26B MoE)和AI Edge Gallery(E4B和E2B)中查看新的Gemma模型。模型权重也可以从Hugging Face、Kaggle和Ollama完整下载。虽然模型针对本地处理进行了优化,但谷歌也很乐意在谷歌云中为您运行这些模型,当然需要付费。
Q&A
Q1:Gemma 4相比Gemma 3有哪些主要改进?
A:Gemma 4在多个方面显著改进:性能上提供更好的推理、数学和指令遵循能力;延迟更低,26B专家混合模型实现了更高的Token每秒处理速度;移动版本E2B和E4B实现"近零延迟"并降低内存和电池使用;上下文窗口扩大到128k-256k Token;代码生成和视觉输入处理能力增强。
Q2:Apache 2.0许可证相比之前的Gemma许可证有什么优势?
A:Apache 2.0许可证更加宽松和开发者友好。之前的Gemma许可证有严格的禁用政策,谷歌可单方面更新,要求开发者在所有项目中执行谷歌规则,甚至可能影响其他AI模型。而Apache 2.0没有过度的使用条款或商业限制,开发者更熟悉,谷歌也无法随意更改许可证条款。
Q3:Gemma 4的四种模型分别适用于什么场景?
A:26B专家混合模型和31B稠密模型适用于高性能本地部署,前者注重速度,后者注重质量,需要80GB H100 GPU或量化后的消费级GPU。E2B和E4B模型专为移动设备优化,适用于智能手机、树莓派等设备,支持语音识别,内存占用低,延迟近零,是下一代Gemini Nano 4的基础。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。