谷歌发布了其最先进的开放权重人工智能模型家族Gemma 4,这标志着开放权重AI模型领域的重大进步。
技术架构与性能突破
Gemma 4基于与Gemini 3相同的架构基础构建,专门设计用于处理复杂推理任务,并支持在工作站和智能手机等低功耗设备上本地运行的自主AI智能体。
谷歌DeepMind研究人员Clement Farabet和Olivier Lacombe表示,他们成功实现了更高的"每参数智能度",使模型能够发挥远超其规模的性能。例如,31B Dense变体目前在行业标准Arena AI Text排行榜的开放模型中排名第三。
四种模型变体满足不同需求
Gemma 4提供四种不同版本:Effective 2B、Effective 4B、26B专家混合模型和31B Dense模型。较小的"Effective"模型专为Android智能手机或树莓派计算机等轻量级硬件的边缘使用场景而设计。
26B MoE模型采用了巧妙的设计,在推理任务中仅激活38亿个参数,既能保持高速运行,又不会牺牲大型模型的深度知识库优势。
智能体支持与多模态能力
与早期的Gemma版本不同,Gemma 4模型原生支持函数调用和结构化JSON输出,开发者无需调整设计即可让模型与其他软件工具交互。这使得开发者能够利用这些模型构建能够与第三方工具交互并执行多步骤计划的自主智能体。
所有四个模型都具备处理图像和视频的能力,较小的E2B和E4B变体还进一步支持原生音频输入,能够直接在设备上实现实时语音理解。谷歌还增加了模型的上下文窗口,最小模型可达128K,较大的两个模型可达256K。这意味着开发者能够通过单个提示上传整个代码库或大量文档集合。
开放许可与部署方式
每个模型都采用宽松的Apache 2.0许可证发布,消除了其他AI模型的许多商业限制,使其成为构建企业应用程序开发者的绝佳选择。这些模型可以通过Google Cloud直接访问,也可以在Hugging Face、Kaggle和Ollama上获取开放权重版本。
市场影响与前景展望
这次发布凸显了谷歌主导"本地AI"行业的雄心。Constellation Research分析师Holger Mueller表示,由于即使是较大的Gemma 4模型也足够小,可以在单个图形处理单元上运行,这使得它们适用于对低延迟和数字主权要求较高的边缘使用场景和应用。
Mueller评论道:"谷歌不仅通过推进Gemini,还通过Gemma 4系列的开放模型来构建其在AI领域的领先地位。这些模型对于构建AI开发者生态系统非常重要,将帮助公司在不同设备形态上挖掘功能性和垂直使用场景。谷歌此前的Gemma 3发布已经设定了很高的标准,因此人们对这次发布寄予厚望。"
Q&A
Q1:Gemma 4模型有什么特殊之处?
A:Gemma 4是谷歌最先进的开放权重AI模型家族,基于与Gemini 3相同的架构,专门设计用于处理复杂推理任务。它能够在工作站和智能手机等低功耗设备上本地运行自主AI智能体,实现了更高的"每参数智能度",性能远超其模型规模。
Q2:Gemma 4有哪些不同版本可以选择?
A:Gemma 4提供四种版本:Effective 2B和Effective 4B专为智能手机、树莓派等轻量级硬件设计;26B专家混合模型在推理时仅激活38亿参数,兼顾速度和性能;31B Dense模型在开放模型排行榜中排名第三,性能强劲。
Q3:Gemma 4在商业应用方面有什么优势?
A:Gemma 4采用宽松的Apache 2.0许可证,消除了许多商业限制,特别适合企业应用开发。模型原生支持函数调用和JSON输出,可直接构建自主智能体。同时支持图像、视频和音频处理,上下文窗口最大可达256K,能处理大型文档和代码库。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。