谷歌近日发布了一套新工具,允许开发者使用来自Google DeepMind的120亿参数模型Gemma 4 12B,在本地运行具备智能体能力的AI工作流。
谷歌在官方博客中表示,该模型结合Google AI Edge技术栈,可在普通设备上构建和测试应用程序,支持自主数据处理、视觉洞察生成、网页创建及工具调用等功能。
此次发布内容包括适用于macOS的Google AI Edge Gallery,开发者可借助Gemma 4 12B生成并执行数据分析等任务的脚本。谷歌还宣布,其Eloquent语音听写与编辑应用现已在macOS上实现完全本地化运行,支持本地转录与语音驱动的文本编辑。
此外,谷歌还扩展了其轻量级命令行工具LiteRT-LM,新增了serve命令。该命令可将命令行工具作为本地大语言模型服务器使用,让开发者通过本地端点将Gemma 4 12B接入标准工具、SDK及框架。谷歌表示:"数据始终保留在用户设备上,同时保持稳定的响应能力、实用性与成本效率。"
此次发布恰逢企业界开始重新审视部分AI工作负载对大型通用模型的依赖。Gartner预测,到2027年,企业使用小型、任务专用AI模型的频率将至少是通用大语言模型的三倍,原因在于市场对更贴合场景、更具成本效益的AI系统的需求日益增长。
然而,在员工设备上运行AI智能体也带来了诸多挑战。企业必须在终端硬件性能的限制范围内运作,这会制约模型的可用规模以及同时运行的模型实例数量。
Gartner首席分析师Rishi Padhi指出:"虽然AI现在可以运行在笔记本电脑上,但企业IT基础设施在管理层面尚未做好准备。即便是像Gemma 4 12B这样高度优化的模型,在与标准应用并行运行时也需要约16GB的统一内存或显存。许多企业标配笔记本电脑缺乏流畅执行多轮智能体任务所需的内存带宽以及NPU或GPU。"
TechInsights AI分析师Anand Joshi表示,本地部署同样会改变工作负载的性质。在PC端,搜索可能意味着在本地文件夹和文件中查找信息;而在数据中心,同样的功能则可能涉及互联网检索或查询SQL等大型数据库。
"本地部署AI智能体的框架与数据中心截然不同,"Joshi说道,"模型更小,同一时间只能运行一个大模型实例,内存、CPU等资源都是制约因素。"
随着AI智能体逐步向企业终端延伸,安全与治理问题也将日益凸显。AI智能体本身具备执行操作的能力,当本地模型被赋予访问员工文件或直接与应用程序及脚本交互的权限时,新的安全风险随之而来。
Padhi补充道:"在不影响智能体功能的前提下对其进行沙箱隔离,仍是一项重大运营挑战。与此同时,企业还需要对AI使用情况进行合规与安全审计。当推理完全在离线状态下进行时,捕获日志、追踪模型偏差、确保员工使用经过审批的合规模型将变得极为困难。"
在本地运行AI智能体或许能降低部分云端推理成本,但短期内这一节省可能被终端硬件和管理方面的更高支出所抵消。
"首先,这是一次运营支出向资本支出的转移,"Padhi表示,"它通过强制加速高端PC或边缘设备的硬件更新周期来转嫁财务负担。企业需要为员工购置昂贵的大内存笔记本,而此时硬件行业的'内存通胀'已在推高笔记本终端用户的平均售价。"
Padhi指出,许多企业已于2025年完成PC更新以支持Windows 11,但当时大多数AI推理仍在云端运行,本地AI的商业价值尚不明朗。
因此,企业可能会采取审慎态度,仅在本地推理具有明确商业价值的场景下才采购具备AI能力的PC。
然而从长远来看,本地AI有望通过降低对云端推理可变费用的依赖,使企业AI支出更具可预测性。代价是企业可能面临更高的员工设备配置与管理基准成本。
对于企业而言,本地AI不太可能完全取代云端AI。分析师认为,本地AI更适合那些受益于终端处理的工作负载,尤其是应用需要离线运行或对隐私保护与响应速度有严格要求的场景。
"要让本地AI智能体得到广泛普及,边缘端的使用场景必须与数据中心或云端的使用场景形成互补,"Joshi表示,"我不认为本地AI智能体会取代云端AI,但它有潜力从云端分走一部分份额,而Gemma等模型正是推动这一趋势的重要步骤。"
Joshi补充道,市场仍在探索本地AI的最佳定位:"我预计,对隐私要求较高或有严格延迟需求的场景将率先迁移至本地节点,其他场景则会在未来两到三年内陆续跟进。"
Padhi则表示,模型部署位置将取决于工作负载的隐私要求、所需计算能力以及相关数据的存储位置。代码生成或本地文件分析等任务可能会越来越多地在员工设备上运行,而企业级RAG系统和更复杂的AI工作流则可能继续依托云端部署。
Q&A
Q1:Gemma 4 12B是什么?它能做什么?
A:Gemma 4 12B是谷歌DeepMind推出的一款拥有120亿参数的AI模型。它可以在普通笔记本电脑等本地设备上运行,支持自主数据处理、视觉洞察生成、网页创建及工具调用等功能,无需依赖云端即可完成智能体工作流任务。
Q2:本地运行AI智能体对企业硬件有什么要求?
A:要流畅运行Gemma 4 12B等本地AI模型,设备需要约16GB的统一内存或显存,并具备足够的内存带宽及NPU或GPU支持。许多现有企业标配笔记本电脑并不满足这些条件,企业可能需要专门采购高配置设备,这会带来额外的硬件投入成本。
Q3:本地AI会取代云端AI吗?
A:分析师普遍认为本地AI不会完全取代云端AI,两者更可能形成互补关系。本地AI更适合需要离线运行、对隐私保护要求高或延迟敏感的场景;而企业级RAG系统、复杂AI工作流等仍会依赖云端。预计未来2至3年内,更多场景会逐步迁移至本地节点。
好文章,需要你的鼓励
"影子AI"是指员工在未经公司批准的情况下使用AI工具办公。虽然ChatGPT等工具能提升效率,但将内部文件、客户数据或源代码输入未授权平台,可能导致企业数据失控。IBM报告显示,20%的企业存在未授权AI工具,63%尚无AI治理政策。专家建议,一味封禁效果有限,企业应明确哪些工具可用、哪些数据禁止上传,员工也应主动核查AI输出内容,避免将敏感信息粘贴至公共AI平台。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
Hirebotics联合Fanuc发布首款基于无代码Beacon平台的防爆协作喷涂机器人Cobot Painter。该方案适用于金属制造商,无需专用喷涂房或复杂编程,可在现有人工喷涂环境中数日内完成部署。操作人员通过平板或手机的"点击示教"功能即可引导机器人完成路径学习,实现液体涂料、粉末涂装等高精度重复作业,帮助制造商将涂装业务收回自主管理。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。