香港大学及其合作机构的研究人员推出了一个名为OpenCUA的新框架,为创建能够操作计算机的强大AI智能体提供了开源基础。该框架包含了扩展计算机操作智能体(CUA)开发所需的工具、数据和方法。
使用该框架训练的模型在CUA基准测试中表现优异,超越了现有开源模型,并与OpenAI和Anthropic等领先AI实验室的封闭式智能体展开激烈竞争。
**构建计算机操作智能体的挑战**
计算机操作智能体旨在自主完成计算机任务,从网站导航到操作复杂软件。它们还可以帮助企业自动化工作流程。然而,最强大的CUA系统都是专有的,其训练数据、架构和开发过程的关键细节都被保密。
研究人员在论文中指出:"由于缺乏透明度限制了技术进步并引发安全担忧,研究社区需要真正开放的CUA框架来研究其能力、局限性和风险。"
与此同时,开源努力面临着自己的一系列障碍。目前还没有可扩展的基础设施来收集训练这些智能体所需的多样化大规模数据。现有的图形用户界面(GUI)开源数据集数据有限,许多研究项目对其方法的描述不够详细,使其他人难以复制其工作。
**OpenCUA框架介绍**
OpenCUA是一个开源框架,旨在通过扩展数据收集和模型本身来解决这些挑战。其核心是AgentNet工具,用于记录人类在不同操作系统上执行计算机任务的演示。
该工具通过在标注者个人计算机后台运行来简化数据收集,捕获屏幕视频、鼠标和键盘输入,以及底层可访问性树,后者提供有关屏幕元素的结构化信息。这些原始数据然后被处理成"状态-动作轨迹",将计算机截图(状态)与用户相应动作(点击、按键等)配对。标注者随后可以审查、编辑和提交这些演示。
使用此工具,研究人员收集了AgentNet数据集,包含超过22,600个任务演示,涵盖Windows、macOS和Ubuntu,跨越200多个应用程序和网站。论文指出:"该数据集真实地捕获了用户个人计算环境中人类行为和环境动态的复杂性。"
认识到屏幕录制工具对企业数据隐私的重大关切,研究人员在设计AgentNet工具时考虑了安全性。论文共同作者、香港大学博士生王新元解释说,他们实施了多层隐私保护框架。"首先,标注者可以完全观察他们生成的数据...然后再决定是否提交。"数据随后经过隐私问题的人工验证和大语言模型的自动扫描,以在发布前检测任何剩余的敏感内容。
为了加速评估,团队还策划了AgentNetBench,这是一个离线基准测试,为每个步骤提供多个正确动作,提供了更高效的智能体性能测量方法。
**训练智能体的新方法**
OpenCUA框架引入了一个新颖的数据处理和训练计算机操作智能体的流水线。第一步将原始人类演示转换为适合训练视觉语言模型(VLM)的干净状态-动作对。然而,研究人员发现,即使有大量数据,仅仅在这些配对上训练模型也只能产生有限的性能提升。
关键洞察是用思维链(CoT)推理来增强这些轨迹。这个过程为每个动作生成详细的"内心独白",包括规划、记忆和反思。这种结构化推理分为三个层次:对屏幕的高级观察、分析情况并规划下一步的反思性思考,最后是简洁、可执行的动作。这种方法帮助智能体对任务产生更深入的理解。
研究人员写道:"我们发现自然语言推理对于可泛化的计算机操作基础模型至关重要,有助于CUA内化认知能力。"
这种数据合成流水线是一个通用框架,可以被公司适应用于在其独特的内部工具上训练智能体。据王新元介绍,企业可以记录其专有工作流程的演示,并使用相同的"反射器"和"生成器"流水线来创建必要的训练数据。
**OpenCUA性能测试**
研究人员应用OpenCUA框架训练了一系列开源VLM,包括Qwen和Kimi-VL的变体,参数规模从30亿到320亿不等。这些模型在一套在线和离线基准测试上进行评估,测试其执行任务和理解GUI的能力。
320亿参数的模型OpenCUA-32B在OSWorld-Verified基准测试中创下了开源模型的新成功率记录。它还超越了基于OpenAI GPT-4o的CUA,并显著缩小了与Anthropic领先专有模型的性能差距。
对于企业开发者和产品负责人,该研究提供了几个关键发现。OpenCUA方法广泛适用,在不同架构(密集型和专家混合型)和规模的模型上都能提升性能。训练的智能体还显示出强大的泛化能力,在各种任务和操作系统中表现良好。
据王新元介绍,该框架特别适合自动化重复性、劳动密集型的企业工作流程。"例如,在AgentNet数据集中,我们已经捕获了在Amazon AWS上启动EC2实例和在MTurk上配置标注参数的一些演示。这些任务涉及许多连续步骤,但遵循可重复的模式。"
然而,王新元指出,要实现实际部署还需要解决安全性和可靠性方面的关键挑战。"实际部署中最大的挑战是安全性和可靠性:智能体必须避免可能无意中改变系统设置或在预期任务之外触发有害副作用的错误。"
研究人员已经发布了其模型的代码、数据集和权重。
随着基于OpenCUA等框架构建的开源智能体变得更加强大,它们可能从根本上改变知识工作者与计算机的关系。王新元设想了一个未来,在复杂软件方面的熟练程度将不如向AI智能体清楚表达目标的能力重要。
他描述了两种主要工作模式:"离线自动化,智能体利用其更广泛的软件知识端到端地执行任务",以及"在线协作,智能体实时响应并与人类并肩工作,就像同事一样"。基本上,人类将提供战略性的"做什么",而日益复杂的AI智能体将处理操作性的"怎么做"。
Q&A
Q1:OpenCUA是什么?它有什么作用?
A:OpenCUA是由香港大学研究团队开发的开源框架,专门用于创建能够操作计算机的AI智能体。它包含工具、数据和训练方法,能让AI智能体自主完成从网站导航到操作复杂软件等各种计算机任务,还可以帮助企业自动化工作流程。
Q2:AgentNet工具是如何收集训练数据的?
A:AgentNet工具在用户计算机后台运行,捕获屏幕视频、鼠标键盘操作和界面元素信息,将这些原始数据处理成"状态-动作轨迹",即屏幕截图配对用户操作。研究团队用此工具收集了超过22,600个跨Windows、macOS、Ubuntu的任务演示。
Q3:OpenCUA训练的模型性能如何?
A:使用OpenCUA框架训练的320亿参数模型OpenCUA-32B在开源模型中创下新纪录,超越了基于OpenAI GPT-4o的计算机操作智能体,并显著缩小了与Anthropic专有模型的性能差距,在多种任务和操作系统中都表现出强大的泛化能力。
好文章,需要你的鼓励
印尼就业平台Pintarnya宣布完成1670万美元A轮融资,由Square Peg领投。该平台成立于2022年,专注服务蓝领和非正规就业者,提供求职匹配和金融服务。目前拥有超过1000万求职用户和4万家雇主,年收入增长近五倍,预计年底实现盈亏平衡。新资金将用于加强平台技术和扩大金融服务。
南洋理工大学研究团队开发的Life2vec系统能够通过分析个人生活数据预测未来人生轨迹,在收入和职业预测上达到78-85%准确率。该系统使用丹麦600万人的真实数据,采用类似GPT的AI技术,揭示了教育投资、社交网络、地理位置等因素对人生发展的深层影响规律,为政策制定和个人规划提供科学依据。
YouTube Music庆祝十周年,推出多项新功能与Spotify竞争。新增"品味匹配"播放列表功能,可合并多用户的音乐偏好,类似Spotify Blend。应用还将通知用户即将发布的音乐、周边和演出信息,并与Bandsintown合作帮助粉丝发现演唱会。此外,用户可在专辑和播放列表上评论,获得忠诚度徽章。YouTube Music目前拥有超过3亿首曲目和40亿个用户生成播放列表,订阅用户已超过1.25亿。
中国科学家成功将扩散模型应用于语言生成,开发出名为LLaDA的创新AI系统。与ChatGPT等传统按序生成的模型不同,LLaDA采用"填空"方式工作,能同时考虑文本前后信息。在80亿参数规模下,LLaDA在多项测试中表现优异,特别是在逆向推理任务上超越GPT-4o,为AI语言模型发展开辟了全新技术路径。