谷歌发布了其最先进的开放权重人工智能模型家族Gemma 4,这标志着开放权重AI模型领域的重大进步。
技术架构与性能突破
Gemma 4基于与Gemini 3相同的架构基础构建,专门设计用于处理复杂推理任务,并支持在工作站和智能手机等低功耗设备上本地运行的自主AI智能体。
谷歌DeepMind研究人员Clement Farabet和Olivier Lacombe表示,他们成功实现了更高的"每参数智能度",使模型能够发挥远超其规模的性能。例如,31B Dense变体目前在行业标准Arena AI Text排行榜的开放模型中排名第三。
四种模型变体满足不同需求
Gemma 4提供四种不同版本:Effective 2B、Effective 4B、26B专家混合模型和31B Dense模型。较小的"Effective"模型专为Android智能手机或树莓派计算机等轻量级硬件的边缘使用场景而设计。
26B MoE模型采用了巧妙的设计,在推理任务中仅激活38亿个参数,既能保持高速运行,又不会牺牲大型模型的深度知识库优势。
智能体支持与多模态能力
与早期的Gemma版本不同,Gemma 4模型原生支持函数调用和结构化JSON输出,开发者无需调整设计即可让模型与其他软件工具交互。这使得开发者能够利用这些模型构建能够与第三方工具交互并执行多步骤计划的自主智能体。
所有四个模型都具备处理图像和视频的能力,较小的E2B和E4B变体还进一步支持原生音频输入,能够直接在设备上实现实时语音理解。谷歌还增加了模型的上下文窗口,最小模型可达128K,较大的两个模型可达256K。这意味着开发者能够通过单个提示上传整个代码库或大量文档集合。
开放许可与部署方式
每个模型都采用宽松的Apache 2.0许可证发布,消除了其他AI模型的许多商业限制,使其成为构建企业应用程序开发者的绝佳选择。这些模型可以通过Google Cloud直接访问,也可以在Hugging Face、Kaggle和Ollama上获取开放权重版本。
市场影响与前景展望
这次发布凸显了谷歌主导"本地AI"行业的雄心。Constellation Research分析师Holger Mueller表示,由于即使是较大的Gemma 4模型也足够小,可以在单个图形处理单元上运行,这使得它们适用于对低延迟和数字主权要求较高的边缘使用场景和应用。
Mueller评论道:"谷歌不仅通过推进Gemini,还通过Gemma 4系列的开放模型来构建其在AI领域的领先地位。这些模型对于构建AI开发者生态系统非常重要,将帮助公司在不同设备形态上挖掘功能性和垂直使用场景。谷歌此前的Gemma 3发布已经设定了很高的标准,因此人们对这次发布寄予厚望。"
Q&A
Q1:Gemma 4模型有什么特殊之处?
A:Gemma 4是谷歌最先进的开放权重AI模型家族,基于与Gemini 3相同的架构,专门设计用于处理复杂推理任务。它能够在工作站和智能手机等低功耗设备上本地运行自主AI智能体,实现了更高的"每参数智能度",性能远超其模型规模。
Q2:Gemma 4有哪些不同版本可以选择?
A:Gemma 4提供四种版本:Effective 2B和Effective 4B专为智能手机、树莓派等轻量级硬件设计;26B专家混合模型在推理时仅激活38亿参数,兼顾速度和性能;31B Dense模型在开放模型排行榜中排名第三,性能强劲。
Q3:Gemma 4在商业应用方面有什么优势?
A:Gemma 4采用宽松的Apache 2.0许可证,消除了许多商业限制,特别适合企业应用开发。模型原生支持函数调用和JSON输出,可直接构建自主智能体。同时支持图像、视频和音频处理,上下文窗口最大可达256K,能处理大型文档和代码库。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。