GLM-5.1发布：Z.ai推出可长时间自主运行的AI编程智能体

中国AI公司Z.ai推出开源编程模型GLM-5.1，专为智能体软件工程设计。该模型可在数百次迭代中保持稳定性能，在SWE-Bench Pro基准测试中得分58.4，超越GLM-5及OpenAI、Anthropic、Google旗下多款模型。GLM-5.1采用MIT许可证发布，支持本地部署，在数据治理和成本控制方面具有吸引力。分析师指出，该模型适用于大规模代码重构、系统迁移等长周期任务，但公共基准测试与真实企业环境仍存在差距。

中国AI公司Z.ai近日发布了GLM-5.1，这是一款专为智能体软件工程设计的开源编程模型。此次发布正值AI厂商纷纷从自动补全式编程工具，向能够长时间、低人工干预地处理软件任务的系统转型之际。

Z.ai表示，GLM-5.1能够在数百次迭代中保持稳定性能，这一特性使其有别于在长时间运行中逐渐失效的其他模型。

举例来说，该公司表示GLM-5.1在一项向量数据库优化任务中，经过超过600次迭代、6000次工具调用，最终达到每秒21500次查询的速度，约为单次50轮会话中最优结果的六倍。

Z.ai在一份研究说明中指出，GLM-5.1在多项软件工程基准测试中超越了其前代产品GLM-5，尤其在代码仓库生成、终端问题解决和反复代码优化方面表现突出。在SWE-Bench Pro测试上，GLM-5.1得分为58.4，而GLM-5为55.1，并超过了OpenAI的GPT-5.4、Anthropic的Opus 4.6以及谷歌的Gemini 3.1 Pro在该基准上的成绩。

GLM-5.1已在MIT许可证下发布，可通过Z.ai的开发者平台获取，模型权重也已公开发布，支持本地部署。这对希望更好掌控工具部署方式的企业而言具有较大吸引力。

Z.ai将长时间稳定运行性能定位为核心差异化优势，因为许多当前模型在经历相对较少的轮次后便会停滞或出现漂移，限制了其在复杂多步骤软件任务中的实用性。

Pareekh Consulting首席执行官Pareekh Jain表示，行业正从能够回答提示词的工具，迈向能够在较少监督下完成更长时间任务的系统。

Jain说，问题已不再是"我能问AI什么"，而是"我能把接下来八小时的工作交给它做什么"。

对于企业而言，这意味着早上将一张工单交给智能体，到下班时便能收到经过数百次实验和代码分析后生成的优化方案。

Forrester副总裁兼首席分析师Charlie Dai表示："这一能力契合了大规模代码重构、迁移项目和持续故障处理等实际需求。这表明，长时间运行的自主智能体正变得越来越实用，前提是企业需要配套引入治理、监控和升级机制来管控风险。"

GLM-5.1采用MIT许可证发布，对金融、医疗、国防等监管严格或安全敏感行业尤为重要。

Jain从四个维度分析了其意义：第一，成本方面，其定价远低于高端商业模型，自托管方式让企业可以自主控制费用，而非按调用次数付费；第二，数据治理方面，敏感代码和数据无需发送至外部API，在金融、医疗和国防等领域尤为关键；第三，定制化方面，企业可以不受限制地根据自身代码库和内部工具对模型进行调整。

Jain提到的第四个因素是地缘政治风险。尽管该模型是开源的，但其与中国基础设施和相关实体的关联，仍可能引发部分美国企业的合规顾虑。

Dai表示，MIT许可证使企业更容易在自有系统上运行该模型，并根据内部需求和治理策略进行调整。"对许多采购方来说，GLM-5.1是商业模型之外一个可行的战略选项，尤其是在监管约束、知识产权敏感性或长期平台控制最为重要的场景下。"

Z.ai引用了三项基准测试：SWE-Bench Pro用于测试复杂软件工程任务；NL2Repo用于评估代码仓库生成能力；Terminal-Bench 2.0则评估真实场景下基于终端的问题解决能力。

Omdia首席分析师Lian Jye Su表示："这些基准测试专门考察编程智能体的高级编程能力，在这些测试中名列前茅，意味着在规划到执行的可靠性、更少的提示词返工以及更快的交付速度等方面表现优异。不过，这些测试与企业实际情况之间仍存在距离。"

Su指出，公开基准测试仍无法反映私有代码库、遗留系统和代码审查工作流的真实复杂性。他补充说，基准结果来自受控环境，与生产环境存在差异，但随着越来越多团队采用智能体架构，这一差距正在缩小。

Q&A

Q1：GLM-5.1与普通AI编程工具有什么区别？

A：GLM-5.1专为智能体软件工程设计，核心优势在于能在数百次迭代中保持稳定性能，而普通AI编程工具在长时间运行后往往会逐渐失效。例如，GLM-5.1在一项向量数据库优化任务中，经过超600次迭代后仍能持续提升性能，最终查询速度达到单次短会话最优结果的六倍，更适合大规模重构、迁移和持续故障处理等复杂工程任务。

Q2：GLM-5.1开源对企业意味着什么？

A：GLM-5.1采用MIT许可证开源发布，企业可以本地部署，主要有四方面好处：一是成本更低，自托管可自主控制费用；二是数据安全，敏感代码无需发送至外部API；三是可自由定制，适配自身代码库和内部工具；四是规避部分供应商依赖风险。对金融、医疗等监管严格的行业尤其具有实用价值。

Q3：GLM-5.1在基准测试中的表现如何？

A：GLM-5.1在SWE-Bench Pro上得分58.4，超过前代GLM-5的55.1，并超过了OpenAI GPT-5.4、Anthropic Opus 4.6和谷歌Gemini 3.1 Pro的成绩。此外在NL2Repo（代码仓库生成）和Terminal-Bench 2.0（终端问题解决）上也表现出色。不过分析师指出，这些测试仍与企业私有代码库的真实复杂性存在一定差距。

来源：InfoWorld

0赞

好文章，需要你的鼓励

GLM-5.1发布：Z.ai推出可长时间自主运行的AI编程智能体

来源：InfoWorld

2026

04/14

10:02

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

Meta据报道正打造马克·扎克伯格AI数字分身

美国各州隐私保护法：如何限制AI监控与车牌追踪

Anthropic推出专属网络安全AI模型，企业争相驾驭AI变革浪潮

Cloudflare 扩展智能体云平台，推出构建与扩展 AI 智能体的全新工具集

在AI竞速中，一家全球性银行押注人情味

印度主权AI战略将如何提升亚洲科技生态系统

2026年2月生命科学行业趋势与洞察报告

如何识别AI生成的文本：成为一名AI侦探

AI在法律界的病毒式传播：数据揭示真相

AI预测晚期肠癌患者对NHS新药的治疗反应

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: