OpenAI 于周四推出了一款名为 Operator 的人工智能代理,这款由人类指导的 AI 代理能够自主使用网络浏览器完成各种在线任务,尽管其完成效果可能参差不齐。
根据 OpenAI CEO Sam Altman、软件工程师 Yash Kumar、研究员 Casey Chu 和技术人员 Reiichiro Nakano 的演示,Operator 代理可以执行需要多个步骤且具有特定参数的在线活动,比如通过 OpenTable 在指定时间段内预订餐厅,或在给定价格范围内查找特定演出者的音乐会门票。
就像用户向 ChatGPT 提问一样,用户可以向 Operator 发出指令,让它作为个人助手在网络上执行任务。
虽然个人可以自己完成这些任务而无需额外费用,但每月支付 200 美元的美国 ChatGPT Pro 订阅用户可以使用 Operator,尽管其可靠性相对较低。OpenAI 的 Plus、Team 和 Enterprise 层级的订阅用户将在系统完善后获得访问权限。
Operator 类似于 Anthropic 的计算机使用 API,它结合了 Playwright 和 Selenium 等软件框架实现的浏览器自动化功能,以及用于评估网站文字和图像的文本机器学习模型和计算机视觉模型。
其总体目标是实现网络任务自动化,使人们从枯燥的工作中解放出来...或者彻底摆脱就业。
OpenAI 在一份说明中解释道:"Operator 可以处理各种重复性浏览器任务,如填写表格、订购杂货,甚至创建表情包。能够使用与人类日常交互相同的界面和工具扩展了 AI 的实用性,帮助人们在日常任务上节省时间,同时为企业开启新的互动机会。"
这些互动机会目前需要与 OpenAI 进行协商。该公司表示正在与 "DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作,确保 Operator 能够满足现实需求,同时尊重既定规范。"
换句话说,OpenAI 的 Operator 可能无法很好地与那些不期望频繁自动化接触的网络服务进行交互。但随着基于代理的交互变得普及,OpenAI 和类似的代理提供商可能会降低搜索作为营销和销售渠道的价值,因为自动化连接服务和通过 API 建立的合作伙伴优先关系有可能减少人工查询的需求。
OpenAI 的代理基于一个名为 Computer-Using Agent (CUA) 的模型,该模型结合了 GPT-4o 的计算机视觉功能和关于如何处理图形用户界面 (GUI) 的训练。TikTok 母公司字节跳动最近发布了一个类似的开源项目 UI-TARS,用于实现 GUI 交互自动化。
根据 OpenAI 的数据,CUA 在 OSWorld 基准测试中完整计算机使用任务的成功率为 38.1%,在 WebArena 上的成功率为 58.1%,在 WebVoyager 上基于网络任务的成功率为 87%。因此,在使用 Operator 时要做好可能无法成功预订餐厅或订购杂货的心理准备。
CUA 的计算机视觉模式通过捕获和存储屏幕截图工作,它利用这些截图执行链式思维"推理"来完成请求的任务。熟悉 Microsoft 最新版 Windows 中 Recall 功能屏幕捕获争议的人可能会对 OpenAI 如何处理截图数据有所担忧。
The Register 向 OpenAI 询问以寻求澄清,但尚未收到回复。该公司表示,在 ChatGPT 设置中禁用"为所有人改进模型"(默认开启)将阻止 Operator 中的数据用于训练其模型。
用户通过文本提示输入任务,AI 代理会尝试完成该任务,将其分解为一系列步骤,并在需要用户登录、提供支付详细信息或解决验证码时等待用户干预——如果允许的话,当前的计算机视觉模型可以相当有效地完成这些任务。
OpenAI 表示:"我们知道不法分子可能会试图滥用这项技术。这就是为什么我们设计 Operator 拒绝有害请求并阻止不允许的内容。我们的审核系统可以对重复违规发出警告,甚至撤销访问权限,我们还集成了额外的审查流程来检测和处理滥用行为。"
根据 ChatGPT 制造商的说法,Operator 被设计用来防范可能试图通过隐藏提示、恶意代码或网络钓鱼企图误导 AI 代理的对抗性网站。据称该 AI 代理被设计成能够检测并忽略提示注入攻击。据说它在"监控模型"的监督下运行,该模型监视可疑行为,并辅以涉及人工审查和自动化流程的异常检测。
尽管如此,OpenAI 承认,"没有系统是完美的,这仍然是一个研究预览版。"
Operator 的推出正值 AI 行业领袖所称的"代理时代",在这个时代,生成式 AI 模型应用多模态文本、音频和视觉能力与其他计算系统交互,以处理需要某种形式推理和进度评估的多步骤任务。
虽然 AI 代理在理论上听起来很有前景,但在实践中却有些令人失望——可能是因为复杂任务中的每一步都增加了失败的机会。例如,最近对 AI 代码助手 Devin 的评估表明,要使这些系统可靠还需要做更多工作。
好文章,需要你的鼓励
Google Messages近期对聊天界面进行了调整,在"默认"主题下,语音备忘录按钮的波形图标采用了动态颜色的第三强调色进行主题化显示,同时支持浅色与深色模式,更换系统主题或壁纸时背景色也会随之更新。此前该按钮与输入框颜色保持一致。目前该变化仅见于稳定版20260523_00_RC00,尚不确定是有意调整还是程序错误。
清华大学等机构提出LIMMT框架,通过三阶段数据筛选,用仅3%的动作数据训练人形机器人,追踪效果超越全量数据训练。
Telegram近期更新中悄然带回了对Wear OS智能手表的支持,距上次停用该应用已过去五年。新应用支持浏览聊天记录、发送和收听语音消息、静音及置顶对话等功能,首次将Telegram带到Pixel Watch和Galaxy Watch平台。目前Wear OS版暂不支持查看位置和发送贴纸,但官方表示将在下一次更新中补齐。此外,本次更新还改进了机器人文本格式、投票选项链接及Markdown文件支持等功能。
研究发现大语言模型反嵌入矩阵的"边缘频谱"是导致文本嵌入质量差的根源,提出无需训练的EmbedFilter方法,最高提升MTEB得分14.1%并同步实现维度压缩。