谷歌近日发布了一套新工具,允许开发者使用来自Google DeepMind的120亿参数模型Gemma 4 12B,在本地运行具备智能体能力的AI工作流。
谷歌在官方博客中表示,该模型结合Google AI Edge技术栈,可在普通设备上构建和测试应用程序,支持自主数据处理、视觉洞察生成、网页创建及工具调用等功能。
此次发布内容包括适用于macOS的Google AI Edge Gallery,开发者可借助Gemma 4 12B生成并执行数据分析等任务的脚本。谷歌还宣布,其Eloquent语音听写与编辑应用现已在macOS上实现完全本地化运行,支持本地转录与语音驱动的文本编辑。
此外,谷歌还扩展了其轻量级命令行工具LiteRT-LM,新增了serve命令。该命令可将命令行工具作为本地大语言模型服务器使用,让开发者通过本地端点将Gemma 4 12B接入标准工具、SDK及框架。谷歌表示:"数据始终保留在用户设备上,同时保持稳定的响应能力、实用性与成本效率。"
此次发布恰逢企业界开始重新审视部分AI工作负载对大型通用模型的依赖。Gartner预测,到2027年,企业使用小型、任务专用AI模型的频率将至少是通用大语言模型的三倍,原因在于市场对更贴合场景、更具成本效益的AI系统的需求日益增长。
然而,在员工设备上运行AI智能体也带来了诸多挑战。企业必须在终端硬件性能的限制范围内运作,这会制约模型的可用规模以及同时运行的模型实例数量。
Gartner首席分析师Rishi Padhi指出:"虽然AI现在可以运行在笔记本电脑上,但企业IT基础设施在管理层面尚未做好准备。即便是像Gemma 4 12B这样高度优化的模型,在与标准应用并行运行时也需要约16GB的统一内存或显存。许多企业标配笔记本电脑缺乏流畅执行多轮智能体任务所需的内存带宽以及NPU或GPU。"
TechInsights AI分析师Anand Joshi表示,本地部署同样会改变工作负载的性质。在PC端,搜索可能意味着在本地文件夹和文件中查找信息;而在数据中心,同样的功能则可能涉及互联网检索或查询SQL等大型数据库。
"本地部署AI智能体的框架与数据中心截然不同,"Joshi说道,"模型更小,同一时间只能运行一个大模型实例,内存、CPU等资源都是制约因素。"
随着AI智能体逐步向企业终端延伸,安全与治理问题也将日益凸显。AI智能体本身具备执行操作的能力,当本地模型被赋予访问员工文件或直接与应用程序及脚本交互的权限时,新的安全风险随之而来。
Padhi补充道:"在不影响智能体功能的前提下对其进行沙箱隔离,仍是一项重大运营挑战。与此同时,企业还需要对AI使用情况进行合规与安全审计。当推理完全在离线状态下进行时,捕获日志、追踪模型偏差、确保员工使用经过审批的合规模型将变得极为困难。"
在本地运行AI智能体或许能降低部分云端推理成本,但短期内这一节省可能被终端硬件和管理方面的更高支出所抵消。
"首先,这是一次运营支出向资本支出的转移,"Padhi表示,"它通过强制加速高端PC或边缘设备的硬件更新周期来转嫁财务负担。企业需要为员工购置昂贵的大内存笔记本,而此时硬件行业的'内存通胀'已在推高笔记本终端用户的平均售价。"
Padhi指出,许多企业已于2025年完成PC更新以支持Windows 11,但当时大多数AI推理仍在云端运行,本地AI的商业价值尚不明朗。
因此,企业可能会采取审慎态度,仅在本地推理具有明确商业价值的场景下才采购具备AI能力的PC。
然而从长远来看,本地AI有望通过降低对云端推理可变费用的依赖,使企业AI支出更具可预测性。代价是企业可能面临更高的员工设备配置与管理基准成本。
对于企业而言,本地AI不太可能完全取代云端AI。分析师认为,本地AI更适合那些受益于终端处理的工作负载,尤其是应用需要离线运行或对隐私保护与响应速度有严格要求的场景。
"要让本地AI智能体得到广泛普及,边缘端的使用场景必须与数据中心或云端的使用场景形成互补,"Joshi表示,"我不认为本地AI智能体会取代云端AI,但它有潜力从云端分走一部分份额,而Gemma等模型正是推动这一趋势的重要步骤。"
Joshi补充道,市场仍在探索本地AI的最佳定位:"我预计,对隐私要求较高或有严格延迟需求的场景将率先迁移至本地节点,其他场景则会在未来两到三年内陆续跟进。"
Padhi则表示,模型部署位置将取决于工作负载的隐私要求、所需计算能力以及相关数据的存储位置。代码生成或本地文件分析等任务可能会越来越多地在员工设备上运行,而企业级RAG系统和更复杂的AI工作流则可能继续依托云端部署。
Q&A
Q1:Gemma 4 12B是什么?它能做什么?
A:Gemma 4 12B是谷歌DeepMind推出的一款拥有120亿参数的AI模型。它可以在普通笔记本电脑等本地设备上运行,支持自主数据处理、视觉洞察生成、网页创建及工具调用等功能,无需依赖云端即可完成智能体工作流任务。
Q2:本地运行AI智能体对企业硬件有什么要求?
A:要流畅运行Gemma 4 12B等本地AI模型,设备需要约16GB的统一内存或显存,并具备足够的内存带宽及NPU或GPU支持。许多现有企业标配笔记本电脑并不满足这些条件,企业可能需要专门采购高配置设备,这会带来额外的硬件投入成本。
Q3:本地AI会取代云端AI吗?
A:分析师普遍认为本地AI不会完全取代云端AI,两者更可能形成互补关系。本地AI更适合需要离线运行、对隐私保护要求高或延迟敏感的场景;而企业级RAG系统、复杂AI工作流等仍会依赖云端。预计未来2至3年内,更多场景会逐步迁移至本地节点。
好文章,需要你的鼓励
苹果在WWDC上正式发布iOS 27,首个开发者测试版随即上线。新系统对AirPods设置界面进行了全面重构:原本冗长混乱的开关列表被整合为结构清晰的分类菜单,每个选项配有图标,便于快速识别。主设置页面也因此大幅精简。AirPods设置仍位于iPhone设置顶部,仅在设备连接时显示。此次改版显著提升了使用体验,但独立AirPods应用仍未出现。
论文提出ReasonMatch-Bench基准评测AI跨视角空间匹配能力,并通过动态课程强化学习方法DCRL显著提升多模态大模型的宽基线匹配性能,超越多个顶尖商业AI。
Arista Networks推出7060XE7系列,这是一款专为机架级AI基础设施设计的1.6T网络平台产品组合。该系列基于Broadcom Tomahawk 6芯片构建,支持气冷、液冷及混合冷却技术,运行Arista EOS操作系统,具备低延迟和智能数据包缓冲能力。产品涵盖多种配置,部分型号将于2027年第一季度上市。该系列还支持MRC多路径可靠连接协议及SONiC等开源软件,已获得微软Azure、Meta、AMD等头部厂商的生态验证。
这项研究提出MMG2Skill框架,让AI智能体能将互联网人类教程转化为可执行技能文件,并通过失败轨迹自动迭代修正,在桌面操作、游戏和卡牌三类任务上全面超越直接使用原始教程的方式。