OpenAI 推出 Operator 代理：自动化网络任务的新尝试

OpenAI推出名为Operator的人工智能代理，能够自主使用网络浏览器完成各种在线任务。这项功能目前仅向ChatGPT Pro订阅用户开放，可以执行多步骤的复杂任务，如预订餐厅或购买音乐会门票。虽然具有一定的自动化能力，但其可靠性和准确性仍有待提高。

OpenAI 于周四推出了一款名为 Operator 的人工智能代理，这款由人类指导的 AI 代理能够自主使用网络浏览器完成各种在线任务，尽管其完成效果可能参差不齐。

根据 OpenAI CEO Sam Altman、软件工程师 Yash Kumar、研究员 Casey Chu 和技术人员 Reiichiro Nakano 的演示，Operator 代理可以执行需要多个步骤且具有特定参数的在线活动，比如通过 OpenTable 在指定时间段内预订餐厅，或在给定价格范围内查找特定演出者的音乐会门票。

就像用户向 ChatGPT 提问一样，用户可以向 Operator 发出指令，让它作为个人助手在网络上执行任务。

虽然个人可以自己完成这些任务而无需额外费用，但每月支付 200 美元的美国 ChatGPT Pro 订阅用户可以使用 Operator，尽管其可靠性相对较低。OpenAI 的 Plus、Team 和 Enterprise 层级的订阅用户将在系统完善后获得访问权限。

Operator 类似于 Anthropic 的计算机使用 API，它结合了 Playwright 和 Selenium 等软件框架实现的浏览器自动化功能，以及用于评估网站文字和图像的文本机器学习模型和计算机视觉模型。

其总体目标是实现网络任务自动化，使人们从枯燥的工作中解放出来...或者彻底摆脱就业。

OpenAI 在一份说明中解释道："Operator 可以处理各种重复性浏览器任务，如填写表格、订购杂货，甚至创建表情包。能够使用与人类日常交互相同的界面和工具扩展了 AI 的实用性，帮助人们在日常任务上节省时间，同时为企业开启新的互动机会。"

这些互动机会目前需要与 OpenAI 进行协商。该公司表示正在与 "DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作，确保 Operator 能够满足现实需求，同时尊重既定规范。"

换句话说，OpenAI 的 Operator 可能无法很好地与那些不期望频繁自动化接触的网络服务进行交互。但随着基于代理的交互变得普及，OpenAI 和类似的代理提供商可能会降低搜索作为营销和销售渠道的价值，因为自动化连接服务和通过 API 建立的合作伙伴优先关系有可能减少人工查询的需求。

OpenAI 的代理基于一个名为 Computer-Using Agent (CUA) 的模型，该模型结合了 GPT-4o 的计算机视觉功能和关于如何处理图形用户界面 (GUI) 的训练。TikTok 母公司字节跳动最近发布了一个类似的开源项目 UI-TARS，用于实现 GUI 交互自动化。

根据 OpenAI 的数据，CUA 在 OSWorld 基准测试中完整计算机使用任务的成功率为 38.1%，在 WebArena 上的成功率为 58.1%，在 WebVoyager 上基于网络任务的成功率为 87%。因此，在使用 Operator 时要做好可能无法成功预订餐厅或订购杂货的心理准备。

CUA 的计算机视觉模式通过捕获和存储屏幕截图工作，它利用这些截图执行链式思维"推理"来完成请求的任务。熟悉 Microsoft 最新版 Windows 中 Recall 功能屏幕捕获争议的人可能会对 OpenAI 如何处理截图数据有所担忧。

The Register 向 OpenAI 询问以寻求澄清，但尚未收到回复。该公司表示，在 ChatGPT 设置中禁用"为所有人改进模型"（默认开启）将阻止 Operator 中的数据用于训练其模型。

用户通过文本提示输入任务，AI 代理会尝试完成该任务，将其分解为一系列步骤，并在需要用户登录、提供支付详细信息或解决验证码时等待用户干预——如果允许的话，当前的计算机视觉模型可以相当有效地完成这些任务。

OpenAI 表示："我们知道不法分子可能会试图滥用这项技术。这就是为什么我们设计 Operator 拒绝有害请求并阻止不允许的内容。我们的审核系统可以对重复违规发出警告，甚至撤销访问权限，我们还集成了额外的审查流程来检测和处理滥用行为。"

根据 ChatGPT 制造商的说法，Operator 被设计用来防范可能试图通过隐藏提示、恶意代码或网络钓鱼企图误导 AI 代理的对抗性网站。据称该 AI 代理被设计成能够检测并忽略提示注入攻击。据说它在"监控模型"的监督下运行，该模型监视可疑行为，并辅以涉及人工审查和自动化流程的异常检测。

尽管如此，OpenAI 承认，"没有系统是完美的，这仍然是一个研究预览版。"

Operator 的推出正值 AI 行业领袖所称的"代理时代"，在这个时代，生成式 AI 模型应用多模态文本、音频和视觉能力与其他计算系统交互，以处理需要某种形式推理和进度评估的多步骤任务。

虽然 AI 代理在理论上听起来很有前景，但在实践中却有些令人失望——可能是因为复杂任务中的每一步都增加了失败的机会。例如，最近对 AI 代码助手 Devin 的评估表明，要使这些系统可靠还需要做更多工作。

来源：The Register

0赞

好文章，需要你的鼓励

OpenAI 推出 Operator 代理：自动化网络任务的新尝试

来源：The Register

2025

01/24

16:25

分享

点赞

AI高速扩张正悄然考验电网承载极限

福特对AI失望，重新雇用350名经验丰富的工程师

首批四家云服务商加入CISPE欧盟云主权认证计划

2026 Eurobike 展会：最值得关注的电动自行车与新奇产品盘点

联想Legion 7i Gen 10游戏本评测：颜值在线，性价比存疑

杀毒软件已不够用？全面了解现代网络安全防护

大语言模型助力机器人理解模糊指令并聚焦关键细节

MIT AI与社会论坛：探讨AI对就业、民主等领域的深远影响

麻省理工学院新芯片助力微型机器人穿越复杂环境

扎克伯格承认Meta智能体AI进展未达预期

Rust 1.96 正式发布：引入全新 Range 类型体系

AI驱动的内存危机：苹果的困境也是所有人的困境

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: