中国AI公司Z.ai近日发布了GLM-5.1,这是一款专为智能体软件工程设计的开源编程模型。此次发布正值AI厂商纷纷从自动补全式编程工具,向能够长时间、低人工干预地处理软件任务的系统转型之际。
Z.ai表示,GLM-5.1能够在数百次迭代中保持稳定性能,这一特性使其有别于在长时间运行中逐渐失效的其他模型。
举例来说,该公司表示GLM-5.1在一项向量数据库优化任务中,经过超过600次迭代、6000次工具调用,最终达到每秒21500次查询的速度,约为单次50轮会话中最优结果的六倍。
Z.ai在一份研究说明中指出,GLM-5.1在多项软件工程基准测试中超越了其前代产品GLM-5,尤其在代码仓库生成、终端问题解决和反复代码优化方面表现突出。在SWE-Bench Pro测试上,GLM-5.1得分为58.4,而GLM-5为55.1,并超过了OpenAI的GPT-5.4、Anthropic的Opus 4.6以及谷歌的Gemini 3.1 Pro在该基准上的成绩。
GLM-5.1已在MIT许可证下发布,可通过Z.ai的开发者平台获取,模型权重也已公开发布,支持本地部署。这对希望更好掌控工具部署方式的企业而言具有较大吸引力。
Z.ai将长时间稳定运行性能定位为核心差异化优势,因为许多当前模型在经历相对较少的轮次后便会停滞或出现漂移,限制了其在复杂多步骤软件任务中的实用性。
Pareekh Consulting首席执行官Pareekh Jain表示,行业正从能够回答提示词的工具,迈向能够在较少监督下完成更长时间任务的系统。
Jain说,问题已不再是"我能问AI什么",而是"我能把接下来八小时的工作交给它做什么"。
对于企业而言,这意味着早上将一张工单交给智能体,到下班时便能收到经过数百次实验和代码分析后生成的优化方案。
Forrester副总裁兼首席分析师Charlie Dai表示:"这一能力契合了大规模代码重构、迁移项目和持续故障处理等实际需求。这表明,长时间运行的自主智能体正变得越来越实用,前提是企业需要配套引入治理、监控和升级机制来管控风险。"
GLM-5.1采用MIT许可证发布,对金融、医疗、国防等监管严格或安全敏感行业尤为重要。
Jain从四个维度分析了其意义:第一,成本方面,其定价远低于高端商业模型,自托管方式让企业可以自主控制费用,而非按调用次数付费;第二,数据治理方面,敏感代码和数据无需发送至外部API,在金融、医疗和国防等领域尤为关键;第三,定制化方面,企业可以不受限制地根据自身代码库和内部工具对模型进行调整。
Jain提到的第四个因素是地缘政治风险。尽管该模型是开源的,但其与中国基础设施和相关实体的关联,仍可能引发部分美国企业的合规顾虑。
Dai表示,MIT许可证使企业更容易在自有系统上运行该模型,并根据内部需求和治理策略进行调整。"对许多采购方来说,GLM-5.1是商业模型之外一个可行的战略选项,尤其是在监管约束、知识产权敏感性或长期平台控制最为重要的场景下。"
Z.ai引用了三项基准测试:SWE-Bench Pro用于测试复杂软件工程任务;NL2Repo用于评估代码仓库生成能力;Terminal-Bench 2.0则评估真实场景下基于终端的问题解决能力。
Omdia首席分析师Lian Jye Su表示:"这些基准测试专门考察编程智能体的高级编程能力,在这些测试中名列前茅,意味着在规划到执行的可靠性、更少的提示词返工以及更快的交付速度等方面表现优异。不过,这些测试与企业实际情况之间仍存在距离。"
Su指出,公开基准测试仍无法反映私有代码库、遗留系统和代码审查工作流的真实复杂性。他补充说,基准结果来自受控环境,与生产环境存在差异,但随着越来越多团队采用智能体架构,这一差距正在缩小。
Q&A
Q1:GLM-5.1与普通AI编程工具有什么区别?
A:GLM-5.1专为智能体软件工程设计,核心优势在于能在数百次迭代中保持稳定性能,而普通AI编程工具在长时间运行后往往会逐渐失效。例如,GLM-5.1在一项向量数据库优化任务中,经过超600次迭代后仍能持续提升性能,最终查询速度达到单次短会话最优结果的六倍,更适合大规模重构、迁移和持续故障处理等复杂工程任务。
Q2:GLM-5.1开源对企业意味着什么?
A:GLM-5.1采用MIT许可证开源发布,企业可以本地部署,主要有四方面好处:一是成本更低,自托管可自主控制费用;二是数据安全,敏感代码无需发送至外部API;三是可自由定制,适配自身代码库和内部工具;四是规避部分供应商依赖风险。对金融、医疗等监管严格的行业尤其具有实用价值。
Q3:GLM-5.1在基准测试中的表现如何?
A:GLM-5.1在SWE-Bench Pro上得分58.4,超过前代GLM-5的55.1,并超过了OpenAI GPT-5.4、Anthropic Opus 4.6和谷歌Gemini 3.1 Pro的成绩。此外在NL2Repo(代码仓库生成)和Terminal-Bench 2.0(终端问题解决)上也表现出色。不过分析师指出,这些测试仍与企业私有代码库的真实复杂性存在一定差距。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。