OpenAI 推出 Operator：一款可在网络上执行任务的 AI 代理

OpenAI 发布了一款名为 Operator 的网络自动化工具，该工具使用名为计算机使用代理 (CUA) 的新 AI 模型来控制网络浏览器。Operator 通过视觉界面观察和交互屏幕元素，模仿人类操作方式执行任务。这项技术目前仍处于研究预览阶段，OpenAI 希望通过用户反馈来改进系统功能。

OpenAI 于周四发布了名为 "Operator" 的研究预览版，这是一款网络自动化工具，使用名为计算机使用代理 (Computer-Using Agent, CUA) 的新型 AI 模型来控制网络浏览器的可视化界面。该系统通过查看和交互屏幕上的按钮和文本框等元素来执行任务，其方式类似于人类操作。

Operator 现已向每月支付 200 美元的 ChatGPT Pro 计划订阅用户开放，可在 operator.chatgpt.com 使用。公司计划稍后将服务扩展到 Plus、Team 和 Enterprise 用户。OpenAI 打算将这些功能直接集成到 ChatGPT 中，并在后续通过其 API 向开发者开放 CUA。

Operator 在其虚拟环境中监视屏幕内容，同时使用内部浏览器并通过模拟键盘和鼠标输入来执行任务。计算机使用代理通过处理浏览器界面的截图来理解浏览器状态，然后根据观察结果决定点击、输入和滚动等操作。

OpenAI 的这次发布紧随其他科技公司进军所谓的"代理式" AI 系统的步伐，这类系统可以代表用户执行操作。Google 在 2024 年 12 月宣布了 Project Mariner，该项目可通过 Chrome 浏览器执行自动化任务。而在两个月前的 2024 年 10 月，Anthropic 推出了面向开发者的网络自动化工具 "Computer Use"，可以控制用户的鼠标光标并在计算机上执行操作。

AI 研究员 Simon Willison 在其博客中写道："Operator 的界面与 Anthropic 在 10 月份展示的 Claude Computer Use 演示非常相似，甚至到左侧的聊天面板和右侧可交互界面的布局都一样。"

观察并采取行动

为了像人类一样使用浏览器，计算机使用代理分多个步骤工作。首先，它通过截图监控进度，然后分析这些图像 (使用 GPT-4 的视觉能力和额外的强化学习) 来处理原始像素数据。接着，它确定要采取的行动，并执行虚拟输入来控制浏览器。这种迭代循环设计据称使系统能够从错误中恢复，并处理跨不同应用程序的复杂任务。

在工作时，Operator 会显示其浏览器窗口视图和正在进行的操作。

Operator 背后的技术仍然相对较新，远非完美。据报道，该模型在创建购物清单或播放列表等重复性网络任务方面表现最佳。根据 OpenAI 的内部测试数据，它在处理表格和日历等不熟悉的界面时会遇到更多困难，在复杂的文本编辑方面表现较差 (成功率为 40%)。

OpenAI 报告称，该系统在 WebVoyager 基准测试中达到了 87% 的成功率，该基准测试涉及 Amazon 和 Google Maps 等实际网站。在使用离线测试站点训练自主代理的 WebArena 测试中，Operator 的成功率降至 58.1%。对于计算机操作系统任务，CUA 在 OSWorld 基准测试中创下了 38.1% 的成功率记录，超过了以前的模型，但仍低于人类 72.4% 的表现。

通过这个不完美的研究预览版，OpenAI 希望收集用户反馈并改进系统功能。该公司承认 CUA 不会在所有场景中都能可靠运行，但计划通过用户测试来提高其在更广泛任务范围内的可靠性。

安全和隐私问题

目前，所有浏览和活动都在 Operator 的虚拟环境中进行。OpenAI 表示，它在 Operator 中建立了多重安全控制，在完成发送电子邮件或进行购买等敏感操作之前需要用户确认。Operator 还有 OpenAI 设置的浏览限制，它不能访问某些网站类别，包括赌博和成人内容。

为了捕获通过越狱和提示注入来破坏 Operator 的尝试 (这些尝试可能被嵌入到 AI 模型浏览的网站中)，OpenAI 表示它已实施实时审核和检测系统。OpenAI 报告称，在早期内部红队测试期间，该系统识别出了除一个以外的所有提示注入尝试。

然而，经常报道 AI 安全问题的 Willison 并不相信 Operator 不会被破坏，特别是当新的威胁出现时。他在博客文章中写道："我持怀疑态度。我想一旦世界其他地方开始探索它，我们会看到各种新颖的成功提示注入式攻击。"

正如 Willison 指出的，OpenAI 在其系统卡文档中承认了这些风险："尽管进行了主动测试和缓解努力，由于模拟现实世界场景复杂性和对抗性威胁的动态性质的困难，某些挑战和风险仍然存在。"

OpenAI 表示已实施多项隐私控制：用户可以通过 ChatGPT 设置选择不将其数据用于模型训练，在 Operator 设置中一键删除所有浏览数据，并同时登出所有站点。当用户需要输入密码或支付详细信息等敏感信息时，会激活"接管模式"，此时 Operator 停止收集截图。

即使有这些预防措施，Willison 在他的博客中提供了自己的 Operator 隐私建议："为每个委托给 Operator 的任务启动新会话，以确保它无法访问你过去通过该工具使用过的任何网站的凭据。如果你让它代表你花钱，让它到达结账页面，然后提供你的支付详细信息，之后立即清除会话。"

本文于 2025 年 1 月 25 日更新，以明确 Operator 在其自己的虚拟浏览器环境中工作。

来源：Arstechnica

0赞

好文章，需要你的鼓励

OpenAI 推出 Operator：一款可在网络上执行任务的 AI 代理

来源：Arstechnica

2025

02/18

16:49

分享

点赞

稚晖君发布全球最小全身力控人形机器人，上纬启元开启个人机器人时代

2026年软件定价大洗牌：IT领导者必须知道的关键变化

Linux 在 2026 年将势不可挡，但一个开源传奇可能难以为继

CES 2026趋势展望：全球最大科技展五大热门话题预测

人工智能时代为何编程技能比以往更重要

AI颠覆云优先战略：混合计算成为唯一出路

谷歌发布JAX-Privacy 1.0：大规模差分隐私机器学习工具库

谷歌量子AI发布新型优化算法DQI：量子计算优化领域的重大突破

缓解电动汽车里程焦虑：简单AI模型如何预测充电桩可用性

Titans + MIRAS：让AI拥有长期记忆能力

Gemini为STOC 2026大会理论计算机科学家提供自动化反馈

夸克AI眼镜持续升级：首次OTA，支持89种语言翻译

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: