谷歌在去年年底发布Gemini 3 Pro时,为该公司专有大语言模型技术迈出了重要一步。如今,谷歌正通过发布全新Gemma 4开源权重模型系列,将构建这些模型的相关技术和研究成果带给开源社区。
谷歌提供四个不同版本的Gemma 4模型,它们的区别在于参数数量。针对边缘设备(包括智能手机),谷歌推出了20亿和40亿参数的"Effective"模型。对于更强大的机器,则有260亿参数的"专家混合"模型和310亿参数的"密集"模型。对于不熟悉的用户来说,参数是大语言模型可以调整以生成输出的设置。通常情况下,参数更多的模型会提供更好的答案,但运行它们也需要更强大的硬件支持。
对于Gemma 4,谷歌声称已经成功开发出具有"前所未有的单参数智能水平"的系统。为了支撑这一说法,公司指出Gemma 4的310亿和260亿参数版本的表现,它们在Arena AI的文本排行榜上分别获得第三和第六名,击败了比它们大20倍的模型。
所有模型都能处理视频和图像,使它们非常适合光学字符识别等任务。两个较小的模型还能处理音频输入并理解语音。另外,谷歌表示Gemma 4系列能够生成离线代码,这意味着你可以在没有互联网连接的情况下使用它们进行编程。谷歌还在140多种语言上训练了这些模型。
谷歌在Apache 2.0许可证下发布Gemma 4系列。此前该公司通过自己的Gemma许可证提供Gemma模型。此举将为人们根据需求修改新系统提供更大的自由度。
"这个开源许可证为开发者的完全灵活性和数字主权提供了基础,让你完全控制自己的数据、基础设施和模型,"谷歌表示。"它允许你自由构建并在任何环境中安全部署,无论是本地还是云端。"
如果你想亲自尝试其中一个系统,模型权重可通过Hugging Face、Kaggle和Ollama获取。
Q&A
Q1:Gemma 4有哪些不同版本?
A:Gemma 4提供四个版本:针对边缘设备的20亿和40亿参数"Effective"模型,以及针对更强大机器的260亿参数"专家混合"模型和310亿参数"密集"模型。
Q2:Gemma 4模型有什么特殊能力?
A:所有Gemma 4模型都能处理视频和图像,适合光学字符识别等任务。较小的两个模型还能处理音频输入和语音理解,所有模型都能生成离线代码并支持140多种语言。
Q3:如何获取和使用Gemma 4模型?
A:Gemma 4在Apache 2.0许可证下发布,模型权重可通过Hugging Face、Kaggle和Ollama平台获取,用户可以自由修改并在本地或云端部署。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。