IBM推出开源智能体CUGA 任务完成率超五成

IBM研究人员发布了名为CUGA的开源AI代理，旨在自动化复杂的企业工作流程，任务完成率约为50%。CUGA全称为可配置通用代理，通过多代理编排、API集成和代码生成来实现智能任务自动化。在WebArena和AppWorld基准测试中，CUGA分别获得61.7%的Web任务成功率和48.2%的场景完成率。该系统采用Apache 2.0许可证发布，支持多种开源模型。

IBM研究人员发布了一款名为CUGA的开源智能体，旨在实现复杂企业工作流程的自动化，根据不同任务类型，其准确完成率约为50%。

CUGA是"可配置通用智能体"的缩写。根据其在AI平台HuggingFace上的介绍，该软件通过"多智能体编排、API集成以及在企业演示应用中的代码生成，实现智能任务自动化"。

IBM研究团队在今年7月发布的论文中写道："我们对IBM CUGA的愿景是开发一个通用智能体，知识工作者可以对其进行调整和配置，以安全可靠的方式执行工作中的日常或复杂任务。"

然而，并非所有人都认为智能体是安全可靠的。IT咨询公司Gartner最近建议屏蔽所有智能体浏览器，此前几个月该公司还警告称，约40%的企业智能体项目将因缺乏商业价值而在2027年前被取消。

尽管如此，自动化的诱惑力依然强劲，IBM也热衷于提供帮助。蓝色巨人的研究人员引用了CUGA在WebArena和AppWorld基准测试中的表现——分别实现了61.7%的网页任务完成成功率和48.2%的API任务场景完成率——并指出该智能体的得分虽然对于人类员工来说可能导致被解雇，但目前代表了智能体领域的顶级水平。

值得注意的是，IBM似乎没有使用自家面向企业的WebAgentBench基准来评估CUGA。公司研究人员关于这一自主开发测试套件的论文描述了三个智能体——AgentWorkflowMemory(AWM)、WorkArena-Legacy和WebVoyager——在完成指定任务方面的评估结果。

这些智能体的平均原始完成率仅为24.4%，符合政策要求的完成率仅为15%。当存在五个或更多政策时，符合政策的平均完成率仅为7.1%。而企业通常有超过五个适用于业务工作流程的政策。

基准测试论文指出："企业工作流程通常包含数十个并发政策，这表明现实世界的不足将更加明显，政策稳健优化，而不仅仅是原始完成率，必须成为关注的核心目标。"

在CUGA获得61.7%成功率的WebArena基准测试中，AWM仅获得35.5%的成功率。

IBM科学家今年早些时候指出了各种AI基准测试的不足之处，但至少CUGA的得分表明智能体正在改进。

CUGA采用Apache 2.0许可证发布，从聊天层开始，该层设计用于从提示中辨别用户意图。这可能是"从数字销售中获取收入最高的账户，然后将其添加到当前页面"，或者是HuggingFace演示中包含的任何其他示例提示，该演示模拟了一个小型CRM系统，配备了20个预配置工具用于进行销售相关查询和API调用。

作者解释说，任务规划和控制组件分析输入到CUGA中的提示，并将目标分解为在任务账簿中跟踪的结构化子任务集。该账簿是动态的，当第一次尝试不成功时可以重新规划。

研究人员在博客文章中解释说："子任务被委派给专门的智能体，如API智能体，它使用内部推理循环在安全沙箱中调用代码之前生成伪代码指令。系统利用超越MCP协议的工具注册表来解析和理解工具能力，实现精确编排。"

最后，系统向用户返回希望符合政策要求的响应。

IBM开发团队设计CUGA与Langflow协作，Langflow是一个用于智能体设计的低代码平台，并支持各种开放模型，如gpt-oss-120b和Llama-4-Maverick-17B-128E-Instruct-fp8。巧合的是，据报道，Llama的制造商Meta正在开发一个名为Avocado的后续模型，该模型可能不会开源。

CUGA似乎仍有一些粗糙的地方。例如，最近报告的一个错误表明，该智能体偶尔可能在退出运行循环时遇到问题。但如果您正在部署AI智能体软件并期望毫不费力地自动化多步骤业务任务，您可能需要降低期望值。

Q&A

Q1：CUGA智能体的任务完成率如何？

A：CUGA在不同基准测试中表现不同：在WebArena基准测试中实现61.7%的网页任务成功率，在AppWorld基准测试中达到48.2%的API任务场景完成率。虽然这些数字对人类员工来说可能不够理想，但在当前智能体领域已属顶级水平。

Q2：企业智能体在实际应用中面临什么挑战？

A：企业智能体面临的主要挑战是政策合规问题。研究显示，当企业存在五个或更多政策时，智能体符合政策要求的平均完成率仅为7.1%。而实际企业工作流程通常包含数十个并发政策，这使得现实应用中的挑战更加严峻。

Q3：CUGA智能体如何工作？

A：CUGA采用多层架构：首先通过聊天层识别用户意图，然后任务规划组件将目标分解为结构化子任务并记录在动态任务账簿中。子任务被委派给专门智能体处理，如API智能体会在安全沙箱中生成和执行代码，最终返回符合政策要求的响应。

来源：The Register

0赞

好文章，需要你的鼓励

IBM推出开源智能体CUGA 任务完成率超五成

来源：The Register

2025

12/16

14:41

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

OpenAI支持的生物技术公司Chai Discovery获1.3亿美元B轮融资

塑造2026年的八大智能手机趋势

AI架构师荣获《时代》杂志年度人物称号

iOS 26.2让用户可再次调整液态玻璃透明度

停止将AI拟人化：这样做的危害性分析

Nutanix推出分布式主权云服务 强化多云环境安全运营

金融监管机构推动房贷经纪人采用人工智能技术

重建AI就绪数据策略的8个关键建议

MCP智能体连接协议面临企业级挑战

Zoom推出AI Companion 3.0，支持浏览器访问和智能体自动化

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会

Nutanix推出分布式主权云服务强化多云环境安全运营