智能体AI正在深刻改变用户的工作方式。继OpenClaw大获成功之后,开源智能体框架正受到社区的广泛关注。其中最新的Hermes智能体在不到三个月内GitHub星标数突破14万,据OpenRouter数据显示,截至上周已成为全球使用量最高的智能体。
Hermes由Nous Research开发,专为可靠性与自我提升能力而设计——这两项特质在过去对智能体而言始终难以兼顾。该框架在设计上兼容多种服务商与模型,并针对本地常驻运行场景进行了深度优化,使NVIDIA RTX PC、NVIDIA RTX PRO工作站以及NVIDIA DGX Spark成为全速、全天候运行Hermes的理想硬件平台。
阿里巴巴推出的新一代高性能开放权重大语言模型Qwen 3.6系列,非常适合运行Hermes这类本地智能体。其中Qwen 3.6 27B和35B参数模型的表现已超越上一代120B和400B参数模型,并可在NVIDIA RTX和DGX Spark上加速运行智能体AI任务。
Hermes的四大核心能力
与其他主流智能体类似,Hermes支持与通讯应用集成,可访问本地文件和应用程序,并实现7×24小时持续运行。但以下四项突出能力使其脱颖而出:
自我进化技能:Hermes能够自主编写并优化技能。每当智能体遇到复杂任务或收到反馈时,它会将所学内容保存为技能条目,从而持续适应和进步。
独立子智能体机制:Hermes将子智能体视为专注于特定子任务的短生命周期隔离工作单元,每个单元拥有专属的上下文与工具集。这种设计使任务组织更为清晰,降低了智能体的混淆概率,同时允许Hermes以更小的上下文窗口运行,非常适合本地模型部署。
可靠性由设计保障:Nous Research对Hermes内置的每项技能、工具和插件均经过严格筛选与压力测试。最终效果是:即便使用300亿参数级别的本地模型,Hermes也能稳定运行,无需像大多数其他智能体框架那样频繁调试。
相同模型,更优结果:开发者对比测试显示,在相同模型条件下,Hermes在各框架中始终表现更优。差异在于框架本身——Hermes是一个主动编排层,而非简单封装,能够实现持久的设备端智能体运行,而非逐任务执行。
Qwen 3.6模型:以更小体积实现更强性能
最新的Qwen 3.6系列在广受好评的Qwen 3.5基础上再度跃升,为本地AI智能体带来新突破。新款Qwen 3.6 35B模型仅需约20GB内存即可运行,却能超越需要70GB以上内存的120B参数模型的表现。
此外,Qwen 3.6 27B是一款全新的稠密模型,拥有更多活跃参数,在精度上可媲美Qwen 3.5 397B等4000亿参数模型,体积却仅为其十六分之一。搭配高端RTX GPU运行,可为模型提供充足算力,带来流畅的使用体验。
这些模型非常适合Hermes这类本地智能体,而NVIDIA GPU与DGX Spark是运行它们的最快方案。NVIDIA Tensor Core加速AI推理,提供更高吞吐量与更低延迟,使Hermes能够在数秒内完成多步骤任务或优化自身技能,而非耗费数分钟。
持续运行的智能体工作流
Hermes等智能体设计为持续运行——响应请求、规划多步骤任务、自主执行并自我提升。NVIDIA DGX Spark是理想的配套设备,这款紧凑高效的独立主机专为全天候智能体工作流而生。
DGX Spark配备128GB统一内存,AI算力达1 PFLOPS,可全天运行1200亿参数的混合专家模型。而新款Qwen 3.6 35B模型在更轻量的体积下实现了同等智能水平,运行速度更快,并为用户保留了并发工作负载的运行能力。
如需最大化发挥性能并简化使用流程,可参阅Hermes DGX Spark使用指南。此外,欢迎报名参加NVIDIA"自己动手构建"智能体AI系列线下实操课程,学习如何使用NemoClaw和OpenShell构建自主AI智能体。
NVIDIA DGX Spark现已开放订购,可访问官方市场页面选购。
如何在本地运行Hermes
在NVIDIA硬件上本地运行Hermes操作简便。访问Hermes GitHub仓库即可快速上手,并搭配首选本地模型与运行时环境。可通过llama.cpp、LM Studio或Ollama配合Qwen 3.6运行Hermes。Hermes智能体原生支持LM Studio和Ollama,为用户提供最简便的本地智能体启动路径。
无论是探索个人智能体前沿的AI爱好者,还是为工作流程构建本地工具的开发者,Hermes在NVIDIA硬件上均能提供卓越的性能与可靠的运行基础。
附加资讯:NVIDIA RTX PRO GPU搭配llama.cpp运行Qwen 3.6模型时,Token生成速度最高可提升3倍;谷歌Gemma 4 26B和31B模型现已提供NVFP4检查点版本,在NVIDIA Blackwell GPU上性能进一步提升,结合多Token预测加速器可实现最高3倍推理加速,且输出质量保持一致;Mistral Medium 3.5版本同样于4月发布,新增llama.cpp与Ollama兼容性,支持在NVIDIA RTX PRO和DGX Spark系统上运行。
Q&A
Q1:Hermes智能体有哪些核心能力,和其他智能体框架有什么区别?
A:Hermes智能体由Nous Research开发,具备四大核心能力:一是自我进化技能,能将每次任务经验保存为技能持续优化;二是独立子智能体机制,将子任务分配给隔离的短生命周期工作单元,降低混淆风险;三是内置可靠性保障,所有工具与插件均经严格测试,无需频繁调试;四是在相同模型条件下表现优于其他框架,因为Hermes是主动编排层而非简单封装。
Q2:Qwen 3.6模型相比上一代有哪些提升?
A:Qwen 3.6系列大幅提升了参数效率。其中35B模型仅需约20GB内存,却能超越需70GB以上内存的120B参数旧模型;27B稠密模型则在精度上媲美4000亿参数的Qwen 3.5 397B,体积仅为其十六分之一。搭配NVIDIA RTX GPU或DGX Spark运行,可充分发挥其性能优势,适合本地智能体场景长期部署。
Q3:如何在本地部署运行Hermes智能体?
A:在本地运行Hermes操作较为简便。首先访问Hermes的GitHub仓库获取项目文件,然后选择本地模型运行环境,推荐使用llama.cpp、LM Studio或Ollama搭配Qwen 3.6模型运行。Hermes已原生集成LM Studio和Ollama支持,是最简便的本地启动方式。硬件方面,NVIDIA RTX PC、RTX PRO工作站或DGX Spark均可提供流畅的运行体验。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。