本周在 AI 领域内各大企业纷纷亮相新动态,此前微软、Google 和 Anthropic 的一系列活动引发瞩目,而 OpenAI 也不甘落后,带来自家新闻。当然,我们并不仅仅是在讨论其斥资65亿美元收购 Jony Ive 的设计团队以推动 OpenAI 新硬件“io”的消息。
今天,该公司将 ChatGPT 内的 Operator 自主网页浏览和光标控制代理从原先使用的 GPT-4o 多模态大语言模型升级为更新且更强大的 o3 推理模型。
此次更新于 2025 年 5 月 23 日全球发布,并以“研究预览”的形式向付费订阅者,即每月200美元的 ChatGPT Pro 用户提供。
基本上,这也是 OpenAI 在说明其产品尚未完全“打磨完毕”或达到完美状态 —— 产品可能仍存在一些毛病和问题。
不过,与此同时,竞争对手 Google 推出了自家顶级 AI 订阅套餐,经常定价约250美元(目前首三个月折扣价为125美元),用户可以使用其最新的 Gemini 多模态、Imagen 图像生成和 Veo 视频生成模型,相比之下,OpenAI 的 ChatGPT Pro 订阅看起来则更为实惠。
什么是 OpenAI 的 Operator 及其用途?
Operator 于 2025 年 1 月首次亮相,作为 OpenAI 迈向半自主代理(Computer Using Agents,CUAs)领域的初步尝试。其理念是超越 ChatGPT 的聊天机器人界面,让 OpenAI 强大的 AI 模型能够开始代表用户执行更多操作。
因此,Operator 被设计为能够自动执行指点、点击、滚动和键入等操作,以完成诸如预订晚餐、编制购物清单或订购活动门票等基于网页的任务。该代理功能能直接通过浏览器界面完成用户任务,从预订到在线数据收集等都能一手搞定。
出于安全、隐私和安全性考虑,Operator 没有利用用户 PC 或 Mac 上现有的网页浏览器,而是在云托管的虚拟浏览器中运行,通过独立网站 — operator.chatgpt.com — 提供服务,用户可在该页面输入请求并实时观察代理执行任务的过程。
它结合了基于 GPT-4o 的视觉、推理和交互能力,标志着 OpenAI 在代理型 AI 方面的新方向。
这一产品以研究预览的形式向 ChatGPT Pro 订阅用户发布,并内置了用户确认、观察模式(Watch Mode)以及对高风险网站平台的限制等安全措施。
同时,它也在企业场景中展开测试,包括旅游规划和公共服务,展示了其在消费者和商业环境中的潜力。
o3 提供了更高的准确性、结构化和成功率
通过此次更新,OpenAI 旨在提升多个关键维度的性能。基于 o3 的新版 Operator 在浏览器交互过程中展现出更好的持久性和准确性。
从实际应用角度看,这意味着它更有可能成功完成用户任务,而无需过多纠正或重复操作。此外,用户可预期得到更清晰、更结构化、更全面的回复。
对比评估显示,新模型明显优于其前身。人类偏好研究表明,用户因其风格、全面性和清晰度更偏爱 o3 模型。它在遵循指令和高效执行任务方面也表现出色,尽管在事实正确性方面两个版本较为均衡。
第三方评测基准的表现也反映了这些提升。在衡量网页任务完成情况的 OSWorld 基准测试中,o3 模型获得 42.9 分,而前一版本为 38.1 分。
不过,OpenAI 指出,由于自动评分系统的局限,实际性能提升可能更接近 20 个百分点!
在 WebArena 上,新模型获得 62.9 分,上升自 48.1 分。最大幅度的提升体现在 GAIA 基准测试上,o3 模型获得 62.2 分,远远超过前一模型的 12.3 分。
并排任务比较进一步展示了这些提升。例如,在一次餐厅预订请求中,新模型提供了更清晰、详细的可预订餐厅列表,包括地点、米其林评分和座位说明,且以格式良好的表格呈现。相比之下,前一版本虽能完成任务,但提供的信息较少且组织结构欠佳,新版本的发布说明附带的图像对此做了对比展示。
安全措施依旧到位,对敏感、金融交易和账户访问等操作仍给出了一般性的警示
o3 模型同样继承了早期版本引入的安全措施,并针对其代理系统角色进行了细调。
OpenAI 加强了对有害任务执行、提示注入漏洞以及关于用户意图错误行为的训练。
评测显示,该模型在执行敏感操作前会进行 94% 的确认,对于金融交易更是实现了 100% 的确认。而提示注入的脆弱性也从 23% 降至 20%。
值得注意的是,o3 Operator 对某些高风险网页交互(如电子邮件或金融平台)保持谨慎边界,在这些场景下可能需要用户通过观察模式进行监管,或者明确拒绝继续操作。这些措施构成了一套层级安全策略,结合了模型级的稳健性和实时监控。
尽管 Operator 的升级标志着技术上的进步,但它也反映了 OpenAI 对负责任 AI 部署的持续承诺。
该系统执行实际操作的能力带来了新的风险,开发团队正不断完善其安全协议。
根据 OpenAI 更新的 o3 系统卡文档,模型在生物和化学滥用等高风险能力类别上依然未达到阈值,且没有原生编码环境或终端访问权限,从而进一步减少了潜在的滥用途径。
Operator 依然处于研究预览阶段,仅限 ChatGPT Pro 用户使用。Responses API 版本的 Operator 暂时仍基于 GPT-4o 模型。
对企业技术决策者的影响
升级后的 Operator 有望显著提升 AI 工程、编排、数据管理和 IT 安全等专业人士的工作流程。
对于构建或维护机器学习模型的从业者来说,该模型的更高准确性和结构化输出减少了测试验证和排错的负担。
在编排场景中,它为自动化复杂工作流程中基于浏览器的组件提供了一个实用可靠的工具。
数据工程师可以更放心地将数据验证和数据抓取等人工网页交互任务委派出去,从而腾出时间处理更高阶的优化工作。
与此同时,安全专家也借助该模型分层的安全机制获得了一种更安全的方式,用于模拟用户行为以开展审计和事故响应演练。
在这些领域中,基于 o3 的 Operator 不仅带来了能力的升级,同时也引入了一套风险缓解框架,使其成为现代技术工具组合中的一项实用补充。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。