香港大学及其合作机构的研究人员推出了一个名为OpenCUA的新框架,为创建能够操作计算机的强大AI智能体提供了开源基础。该框架包含了扩展计算机操作智能体(CUA)开发所需的工具、数据和方法。
使用该框架训练的模型在CUA基准测试中表现优异,超越了现有开源模型,并与OpenAI和Anthropic等领先AI实验室的封闭式智能体展开激烈竞争。
**构建计算机操作智能体的挑战**
计算机操作智能体旨在自主完成计算机任务,从网站导航到操作复杂软件。它们还可以帮助企业自动化工作流程。然而,最强大的CUA系统都是专有的,其训练数据、架构和开发过程的关键细节都被保密。
研究人员在论文中指出:"由于缺乏透明度限制了技术进步并引发安全担忧,研究社区需要真正开放的CUA框架来研究其能力、局限性和风险。"
与此同时,开源努力面临着自己的一系列障碍。目前还没有可扩展的基础设施来收集训练这些智能体所需的多样化大规模数据。现有的图形用户界面(GUI)开源数据集数据有限,许多研究项目对其方法的描述不够详细,使其他人难以复制其工作。
**OpenCUA框架介绍**
OpenCUA是一个开源框架,旨在通过扩展数据收集和模型本身来解决这些挑战。其核心是AgentNet工具,用于记录人类在不同操作系统上执行计算机任务的演示。
该工具通过在标注者个人计算机后台运行来简化数据收集,捕获屏幕视频、鼠标和键盘输入,以及底层可访问性树,后者提供有关屏幕元素的结构化信息。这些原始数据然后被处理成"状态-动作轨迹",将计算机截图(状态)与用户相应动作(点击、按键等)配对。标注者随后可以审查、编辑和提交这些演示。
使用此工具,研究人员收集了AgentNet数据集,包含超过22,600个任务演示,涵盖Windows、macOS和Ubuntu,跨越200多个应用程序和网站。论文指出:"该数据集真实地捕获了用户个人计算环境中人类行为和环境动态的复杂性。"
认识到屏幕录制工具对企业数据隐私的重大关切,研究人员在设计AgentNet工具时考虑了安全性。论文共同作者、香港大学博士生王新元解释说,他们实施了多层隐私保护框架。"首先,标注者可以完全观察他们生成的数据...然后再决定是否提交。"数据随后经过隐私问题的人工验证和大语言模型的自动扫描,以在发布前检测任何剩余的敏感内容。
为了加速评估,团队还策划了AgentNetBench,这是一个离线基准测试,为每个步骤提供多个正确动作,提供了更高效的智能体性能测量方法。
**训练智能体的新方法**
OpenCUA框架引入了一个新颖的数据处理和训练计算机操作智能体的流水线。第一步将原始人类演示转换为适合训练视觉语言模型(VLM)的干净状态-动作对。然而,研究人员发现,即使有大量数据,仅仅在这些配对上训练模型也只能产生有限的性能提升。
关键洞察是用思维链(CoT)推理来增强这些轨迹。这个过程为每个动作生成详细的"内心独白",包括规划、记忆和反思。这种结构化推理分为三个层次:对屏幕的高级观察、分析情况并规划下一步的反思性思考,最后是简洁、可执行的动作。这种方法帮助智能体对任务产生更深入的理解。
研究人员写道:"我们发现自然语言推理对于可泛化的计算机操作基础模型至关重要,有助于CUA内化认知能力。"
这种数据合成流水线是一个通用框架,可以被公司适应用于在其独特的内部工具上训练智能体。据王新元介绍,企业可以记录其专有工作流程的演示,并使用相同的"反射器"和"生成器"流水线来创建必要的训练数据。
**OpenCUA性能测试**
研究人员应用OpenCUA框架训练了一系列开源VLM,包括Qwen和Kimi-VL的变体,参数规模从30亿到320亿不等。这些模型在一套在线和离线基准测试上进行评估,测试其执行任务和理解GUI的能力。
320亿参数的模型OpenCUA-32B在OSWorld-Verified基准测试中创下了开源模型的新成功率记录。它还超越了基于OpenAI GPT-4o的CUA,并显著缩小了与Anthropic领先专有模型的性能差距。
对于企业开发者和产品负责人,该研究提供了几个关键发现。OpenCUA方法广泛适用,在不同架构(密集型和专家混合型)和规模的模型上都能提升性能。训练的智能体还显示出强大的泛化能力,在各种任务和操作系统中表现良好。
据王新元介绍,该框架特别适合自动化重复性、劳动密集型的企业工作流程。"例如,在AgentNet数据集中,我们已经捕获了在Amazon AWS上启动EC2实例和在MTurk上配置标注参数的一些演示。这些任务涉及许多连续步骤,但遵循可重复的模式。"
然而,王新元指出,要实现实际部署还需要解决安全性和可靠性方面的关键挑战。"实际部署中最大的挑战是安全性和可靠性:智能体必须避免可能无意中改变系统设置或在预期任务之外触发有害副作用的错误。"
研究人员已经发布了其模型的代码、数据集和权重。
随着基于OpenCUA等框架构建的开源智能体变得更加强大,它们可能从根本上改变知识工作者与计算机的关系。王新元设想了一个未来,在复杂软件方面的熟练程度将不如向AI智能体清楚表达目标的能力重要。
他描述了两种主要工作模式:"离线自动化,智能体利用其更广泛的软件知识端到端地执行任务",以及"在线协作,智能体实时响应并与人类并肩工作,就像同事一样"。基本上,人类将提供战略性的"做什么",而日益复杂的AI智能体将处理操作性的"怎么做"。
Q&A
Q1:OpenCUA是什么?它有什么作用?
A:OpenCUA是由香港大学研究团队开发的开源框架,专门用于创建能够操作计算机的AI智能体。它包含工具、数据和训练方法,能让AI智能体自主完成从网站导航到操作复杂软件等各种计算机任务,还可以帮助企业自动化工作流程。
Q2:AgentNet工具是如何收集训练数据的?
A:AgentNet工具在用户计算机后台运行,捕获屏幕视频、鼠标键盘操作和界面元素信息,将这些原始数据处理成"状态-动作轨迹",即屏幕截图配对用户操作。研究团队用此工具收集了超过22,600个跨Windows、macOS、Ubuntu的任务演示。
Q3:OpenCUA训练的模型性能如何?
A:使用OpenCUA框架训练的320亿参数模型OpenCUA-32B在开源模型中创下新纪录,超越了基于OpenAI GPT-4o的计算机操作智能体,并显著缩小了与Anthropic专有模型的性能差距,在多种任务和操作系统中都表现出强大的泛化能力。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。