开放模型正在推动新一波设备端AI浪潮,将创新从云端扩展到日常设备。随着这些模型的进步,它们的价值越来越依赖于对本地实时情境的访问,这可以将有意义的洞察转化为行动。
为了适应这一转变,Google最新发布的Gemma 4系列引入了一类小型、快速且全能的模型,专为在各种设备上高效本地执行而构建。
Google和NVIDIA合作优化了Gemma 4在NVIDIA GPU上的性能,实现了从数据中心部署到NVIDIA RTX驱动的PC和工作站、NVIDIA DGX Spark个人AI超级计算机以及NVIDIA Jetson Orin Nano边缘AI模块等各种系统的高效性能。
全新Gemma 4系列功能特性
Gemma 4系列开放模型的最新版本包括E2B、E4B、26B和31B变体,专为从边缘设备到高性能GPU的高效部署而设计。
这一代紧凑型模型支持多种任务,包括:
推理:在复杂问题解决任务上表现出色。
编程:为开发者工作流程提供代码生成和调试功能。
智能体:原生支持结构化工具使用(函数调用)。
视觉、视频和音频能力:支持丰富的多模态交互,包括物体识别、自动语音识别以及文档或视频智能分析。
交错多模态输入:在单个提示中以任何顺序混合文本和图像。
多语言:开箱即用支持35种以上语言,在140多种语言上进行预训练。
E2B和E4B模型专为超高效、低延迟的边缘推理而构建,可完全离线运行,在包括Jetson Nano模块在内的众多设备上实现近零延迟。
26B和31B模型专为高性能推理和以开发者为中心的工作流程而设计,非常适合智能体AI。这些模型经过优化,可提供最先进、易于访问的推理能力,在NVIDIA RTX GPU和DGX Spark上高效运行,为开发环境、编程助手和智能体驱动的工作流程提供支持。
随着本地智能体AI持续发展势头,OpenClaw等应用正在RTX PC、工作站和DGX Spark上实现始终在线的AI助手。最新的Gemma 4模型与OpenClaw兼容,允许用户构建能够从个人文件、应用程序和工作流程中提取情境信息以自动化任务的强大本地智能体。
本地部署与优化方案
NVIDIA与Ollama和llama.cpp合作,为每个Gemma 4模型提供最佳的本地部署体验。
要在本地使用Gemma 4,用户可以下载Ollama来运行Gemma 4模型,或安装llama.cpp并与Gemma 4 GGUF Hugging Face检查点配对。此外,Unsloth提供首日支持,通过Unsloth Studio提供优化和量化的模型,用于高效的本地微调和部署。
在NVIDIA GPU上运行Gemma 4等开放模型可实现最佳性能,因为NVIDIA Tensor Core加速AI推理工作负载,为本地执行提供更高的吞吐量和更低的延迟。此外,CUDA软件堆栈确保在主流框架和工具中的广泛兼容性,使新模型从第一天起就能高效运行。
这种组合使Gemma 4等开放模型能够在从边缘的Jetson Orin Nano到RTX PC、工作站和DGX Spark等广泛系统上扩展,无需大量优化工作。
NVIDIA还推出了开源堆栈NVIDIA NemoClaw,通过提高安全性和支持本地模型来优化NVIDIA设备上的OpenClaw体验。
Q&A
Q1:Gemma 4系列模型有哪些主要特性?
A:Gemma 4系列包括E2B、E4B、26B和31B四个变体,支持推理、编程、智能体功能、视觉/视频/音频处理、交错多模态输入和35种以上语言。E2B和E4B专注于边缘超低延迟推理,26B和31B适合高性能推理和开发者工作流程。
Q2:如何在本地部署和运行Gemma 4模型?
A:用户可以通过下载Ollama直接运行Gemma 4模型,或者安装llama.cpp配合Gemma 4 GGUF检查点使用。Unsloth Studio也提供优化的模型支持本地微调和部署。这些方案都针对NVIDIA GPU进行了优化。
Q3:OpenClaw与Gemma 4如何配合实现本地智能体功能?
A:OpenClaw是在RTX PC、工作站和DGX Spark上实现始终在线AI助手的应用。Gemma 4模型与OpenClaw兼容,用户可以构建能够从个人文件、应用程序和工作流程中提取情境信息的强大本地智能体,实现任务自动化。
好文章,需要你的鼓励
今天讲的出海案例是开创电气,一家金华手持式电动工具制造商,在越南基地完成首款产品验收并形成80万台年产能力。
萨里大学与西蒙菲莎大学联合提出ABACUS模型,首次将物体计数、人群计数、指代计数与精准图像生成统一在单个30亿参数模型中,七项基准全面超越现有专业模型。
研究人员意外发现,标准MOSFET晶体管可同时模拟神经元和突触行为,形成"神经突触随机存取存储器"(NSRAM)。该技术仅需一至两个晶体管即可实现传统需数十乃至数百个元件才能完成的神经信号处理,且与现有硅基制造工艺完全兼容,良率达100%。未来有望应用于边缘AI及高能效神经形态芯片,长远或可挑战GPU地位。
Qwen团队揭示AI代码助手训练中"验证比生成更难"的核心困境,提出覆盖测试筛选、行为监控、用户反馈挖掘和代理评估四类验证方案,并以实验证明验证系统须持续与AI能力共同进化。