谷歌近日发布了一套新工具,允许开发者借助 Gemma 4 12B(谷歌 DeepMind 推出的 120 亿参数模型)在本地运行智能体 AI 工作流。
谷歌官方博客表示,该模型结合 Google AI Edge 技术栈,可在普通计算机上构建和测试应用程序。这一模型与运行时的组合支持自主数据处理、视觉洞察生成、网页创建及工具调用等功能。
此次发布还包括适用于 macOS 的 Google AI Edge Gallery,开发者可利用 Gemma 4 12B 为数据分析等任务生成并运行脚本。谷歌同时宣布,其语音听写与编辑应用 Eloquent 现已完全在 macOS 设备端本地运行,支持本地语音转录和语音驱动文本编辑。
谷歌还对其轻量级本地语言模型命令行工具 LiteRT-LM 进行了扩展,新增了 serve 命令。该命令可让命令行工具充当本地大语言模型服务器,使开发者能够通过本地端点将 Gemma 4 12B 接入标准工具、SDK 及各类开发框架。谷歌在博客中表示:"您的数据始终保留在设备端,同时保持可靠的响应速度、实用性和成本效益。"
此次发布恰逢企业界开始在部分 AI 工作负载中寻求大型通用模型之外的替代方案。Gartner 预测,到 2027 年,企业使用小型、面向特定任务的 AI 模型的频率将至少是通用大语言模型的三倍,原因在于市场对更具针对性、更具成本效益的 AI 系统的需求持续增长。
然而,在员工设备上运行智能体也带来了一系列挑战。企业必须在终端硬件的限制范围内运作,这制约了可高效运行的模型规模,以及可同时运行的模型实例数量。
Gartner 首席分析师 Rishi Padhi 表示:"虽然 AI 模型现在可以在笔记本电脑上运行,但企业 IT 基础设施在很大程度上尚未做好管理准备。即使是像 Gemma 4 12B 这样经过高度优化的模型,在与常规应用程序同时运行时,也需要约 16GB 的统一内存或显存。许多企业标准配置的笔记本电脑缺乏流畅运行多轮智能体所需的内存带宽以及 NPU 或 GPU 资源。"
TechInsights AI 分析师 Anand Joshi 指出,本地部署也会改变工作负载的本质。在个人电脑上,"搜索"可能意味着在本地文件夹和文件中查找信息;而在数据中心,同样的功能可能涉及互联网检索或查询 SQL 等大型数据库。
Joshi 说:"本地部署智能体 AI 的框架与数据中心完全不同。模型体量更小,同一时间只能运行一个大型模型实例,内存、CPU 等资源都是制约因素。"
随着 AI 智能体逐步向企业终端靠近,安全与合规治理也将成为更突出的问题。智能体 AI 本质上是以"执行操作"为设计目标的,一旦本地模型获得访问员工文件或直接与应用程序及脚本交互的权限,就会带来新的安全风险。
Padhi 补充道:"在不破坏智能体实用性的前提下对其进行沙箱隔离,仍是一项重大的运营挑战。与此同时,企业还需要对 AI 使用情况进行合规性和安全性审计。当推理完全在离线环境中进行时,日志捕获、模型漂移追踪,以及确保员工使用经过审批的合规模型,都将变得极为困难。"
在本地运行 AI 智能体或许可以降低部分云端推理成本,但短期内这些节省可能被终端硬件采购和管理方面更高的支出所抵消。
Padhi 表示:"首先,这是一次从运营支出向资本支出的转变。它通过迫使企业加速高性能 PC 或边缘设备的硬件更新周期,将财务负担前移。这意味着企业需要为员工购置昂贵的高内存笔记本电脑,而此时硬件行业的'内存通胀'已在推高笔记本电脑的终端用户均价。"
Padhi 还指出,许多企业已于 2025 年完成了一轮 PC 更新以支持 Windows 11,但彼时大多数 AI 推理仍在云端运行,设备端 AI 的价值主张尚不明朗。
因此,企业可能会采取审慎态度,仅在本地推理具有明确商业价值的场景下才采购具备 AI 能力的 PC。
不过从长远来看,设备端 AI 有望通过降低对可变云端推理账单的依赖,使企业 AI 支出更具可预测性。代价则是企业在员工设备配置与管理方面可能面临更高的基础成本。
对企业而言,本地 AI 不太可能完全取代云端 AI。分析师认为,本地 AI 更可能被用于那些受益于终端处理的工作负载,尤其是在应用程序需要离线运行、或隐私保护与响应时间至关重要的场景中。
Joshi 表示:"本地智能体 AI 若要大规模普及,边缘端的应用场景必须与数据中心或云端场景形成互补。我并不认为本地智能体 AI 会取代云端 AI,但它有潜力从云端分流一部分工作负载,而 Gemma 这类模型正是推动这一进程的重要一步。"
Joshi 还补充道,市场仍在探索本地 AI 的最佳定位:"我预计,对隐私有较高要求或有严格延迟需求的应用场景将率先迁移至本地节点,其他场景则将在未来两到三年内陆续完成迁移。"
Padhi 则认为,模型的部署位置将取决于工作负载的隐私要求、所需算力大小以及相关数据的存储位置。代码生成或本地文件分析等任务或将越来越多地在员工设备上运行,而面向全企业的检索增强生成(RAG)系统及更复杂的 AI 工作流则可能继续留在云端。
Q&A
Q1:Gemma 4 12B 是什么?它能在本地做哪些事情?
A:Gemma 4 12B 是谷歌 DeepMind 推出的一款 120 亿参数 AI 模型。结合 Google AI Edge 技术栈,它可以在普通笔记本电脑上本地运行,支持自主数据处理、视觉洞察生成、网页创建和工具调用等功能,开发者还可用它在 macOS 上生成和运行数据分析脚本,无需将数据上传至云端。
Q2:企业在本地部署 Gemma 4 12B 这类 AI 模型时会遇到哪些问题?
A:主要挑战有三方面:一是硬件限制,Gemma 4 12B 需要约 16GB 统一内存或显存,许多企业标准配置的笔记本电脑不达标;二是安全与合规难题,本地离线推理难以进行日志捕获、模型漂移追踪和合规审计;三是成本结构变化,企业需要加速硬件更新,购置高内存设备,短期内可能增加资本支出。
Q3:本地 AI 智能体会取代云端 AI 吗?
A:不会完全取代。分析师认为,本地 AI 更适合隐私敏感、延迟要求严格或需要离线运行的工作负载,而企业级 RAG 系统和复杂 AI 工作流仍将以云端为主。本地 AI 和云端 AI 更可能是互补关系,Gartner 预计未来 2 到 3 年内,更多场景将逐步向本地节点迁移。
好文章,需要你的鼓励
英国政府在AI采纳峰会上宣布设立2亿英镑专项基金,旨在帮助企业提升AI技能并推广AI应用。资金将用于多项举措,包括为中小企业提供AI培训、设立AI采纳成长实验室、扩大Sparck AI奖学金计划等。思科、IBM、BT、劳斯莱斯等30余家企业参与其中。政府还与谷歌、微软、Anthropic及OpenAI签署联合声明,共同推动AI负责任发展,并设立"亲劳工AI采纳奖",表彰在提升生产力和员工技能方面表现突出的企业。
ZipSplat是苏黎世联邦理工学院提出的三维高斯泼溅框架,通过K-means令牌聚类将Gaussian数量减少最高33倍,同时在多个基准上超越现有方法,推理时无需重新训练即可调节质量与效率的平衡。
微软在6月补丁日修复了高危零日漏洞CVE-2026-45586,该漏洞由化名"Nightmare Eclipse"的研究员披露。此前双方因漏洞披露协议破裂而交恶,研究员陆续公开多个未修复漏洞。本次修复的漏洞涉及Windows协作翻译框架,属本地权限提升类型,可被链式利用获取SYSTEM权限。此外,研究员披露的另一漏洞MiniPlasma似乎也已被悄然修复,但微软未提供相关CVE编号。本轮补丁共修复约200个漏洞。
Stability AI提出Stable-Layers框架,无需标注数据,用视觉语言模型打分结合Flow-GRPO强化学习微调图像分层模型,显著提升分层质量。