GLM-5.1发布:Z.ai推出可长时间自主运行的AI编程智能体

中国AI公司Z.ai推出开源编程模型GLM-5.1,专为智能体软件工程设计。该模型可在数百次迭代中保持稳定性能,在SWE-Bench Pro基准测试中得分58.4,超越GLM-5及OpenAI、Anthropic、Google旗下多款模型。GLM-5.1采用MIT许可证发布,支持本地部署,在数据治理和成本控制方面具有吸引力。分析师指出,该模型适用于大规模代码重构、系统迁移等长周期任务,但公共基准测试与真实企业环境仍存在差距。

中国AI公司Z.ai近日发布了GLM-5.1,这是一款专为智能体软件工程设计的开源编程模型。此次发布正值AI厂商纷纷从自动补全式编程工具,向能够长时间、低人工干预地处理软件任务的系统转型之际。

Z.ai表示,GLM-5.1能够在数百次迭代中保持稳定性能,这一特性使其有别于在长时间运行中逐渐失效的其他模型。

举例来说,该公司表示GLM-5.1在一项向量数据库优化任务中,经过超过600次迭代、6000次工具调用,最终达到每秒21500次查询的速度,约为单次50轮会话中最优结果的六倍。

Z.ai在一份研究说明中指出,GLM-5.1在多项软件工程基准测试中超越了其前代产品GLM-5,尤其在代码仓库生成、终端问题解决和反复代码优化方面表现突出。在SWE-Bench Pro测试上,GLM-5.1得分为58.4,而GLM-5为55.1,并超过了OpenAI的GPT-5.4、Anthropic的Opus 4.6以及谷歌的Gemini 3.1 Pro在该基准上的成绩。

GLM-5.1已在MIT许可证下发布,可通过Z.ai的开发者平台获取,模型权重也已公开发布,支持本地部署。这对希望更好掌控工具部署方式的企业而言具有较大吸引力。

Z.ai将长时间稳定运行性能定位为核心差异化优势,因为许多当前模型在经历相对较少的轮次后便会停滞或出现漂移,限制了其在复杂多步骤软件任务中的实用性。

Pareekh Consulting首席执行官Pareekh Jain表示,行业正从能够回答提示词的工具,迈向能够在较少监督下完成更长时间任务的系统。

Jain说,问题已不再是"我能问AI什么",而是"我能把接下来八小时的工作交给它做什么"。

对于企业而言,这意味着早上将一张工单交给智能体,到下班时便能收到经过数百次实验和代码分析后生成的优化方案。

Forrester副总裁兼首席分析师Charlie Dai表示:"这一能力契合了大规模代码重构、迁移项目和持续故障处理等实际需求。这表明,长时间运行的自主智能体正变得越来越实用,前提是企业需要配套引入治理、监控和升级机制来管控风险。"

GLM-5.1采用MIT许可证发布,对金融、医疗、国防等监管严格或安全敏感行业尤为重要。

Jain从四个维度分析了其意义:第一,成本方面,其定价远低于高端商业模型,自托管方式让企业可以自主控制费用,而非按调用次数付费;第二,数据治理方面,敏感代码和数据无需发送至外部API,在金融、医疗和国防等领域尤为关键;第三,定制化方面,企业可以不受限制地根据自身代码库和内部工具对模型进行调整。

Jain提到的第四个因素是地缘政治风险。尽管该模型是开源的,但其与中国基础设施和相关实体的关联,仍可能引发部分美国企业的合规顾虑。

Dai表示,MIT许可证使企业更容易在自有系统上运行该模型,并根据内部需求和治理策略进行调整。"对许多采购方来说,GLM-5.1是商业模型之外一个可行的战略选项,尤其是在监管约束、知识产权敏感性或长期平台控制最为重要的场景下。"

Z.ai引用了三项基准测试:SWE-Bench Pro用于测试复杂软件工程任务;NL2Repo用于评估代码仓库生成能力;Terminal-Bench 2.0则评估真实场景下基于终端的问题解决能力。

Omdia首席分析师Lian Jye Su表示:"这些基准测试专门考察编程智能体的高级编程能力,在这些测试中名列前茅,意味着在规划到执行的可靠性、更少的提示词返工以及更快的交付速度等方面表现优异。不过,这些测试与企业实际情况之间仍存在距离。"

Su指出,公开基准测试仍无法反映私有代码库、遗留系统和代码审查工作流的真实复杂性。他补充说,基准结果来自受控环境,与生产环境存在差异,但随着越来越多团队采用智能体架构,这一差距正在缩小。

Q&A

Q1:GLM-5.1与普通AI编程工具有什么区别?

A:GLM-5.1专为智能体软件工程设计,核心优势在于能在数百次迭代中保持稳定性能,而普通AI编程工具在长时间运行后往往会逐渐失效。例如,GLM-5.1在一项向量数据库优化任务中,经过超600次迭代后仍能持续提升性能,最终查询速度达到单次短会话最优结果的六倍,更适合大规模重构、迁移和持续故障处理等复杂工程任务。

Q2:GLM-5.1开源对企业意味着什么?

A:GLM-5.1采用MIT许可证开源发布,企业可以本地部署,主要有四方面好处:一是成本更低,自托管可自主控制费用;二是数据安全,敏感代码无需发送至外部API;三是可自由定制,适配自身代码库和内部工具;四是规避部分供应商依赖风险。对金融、医疗等监管严格的行业尤其具有实用价值。

Q3:GLM-5.1在基准测试中的表现如何?

A:GLM-5.1在SWE-Bench Pro上得分58.4,超过前代GLM-5的55.1,并超过了OpenAI GPT-5.4、Anthropic Opus 4.6和谷歌Gemini 3.1 Pro的成绩。此外在NL2Repo(代码仓库生成)和Terminal-Bench 2.0(终端问题解决)上也表现出色。不过分析师指出,这些测试仍与企业私有代码库的真实复杂性存在一定差距。

来源:InfoWorld

0赞

好文章,需要你的鼓励

2026

04/14

10:02

分享

点赞

邮件订阅