ChatGPT 的"Operator"模式赋予 AI 真正的自主性 - 既令人兴奋又令人恐惧

OpenAI为ChatGPT推出的"Operator"模式标志着AI发展的重大飞跃。这一升级使ChatGPT能够自主完成复杂任务，包括与网页和服务交互，无需人工指导即可自动执行多步骤操作。这一进展不仅展现了AI技术的快速发展，也为未来AI应用开辟了新的可能性。

OpenAI 的全球知名 AI 聊天机器人 ChatGPT 正在快速迭代更新，而最新的更新可能是迄今为止最重大的进步。

ChatGPT 在两年多前刚推出时，与今天相比还很"简陋"。自那时起，它已经进化出浏览网页、理解图像、记忆信息、更有效推理，甚至可以在离线状态下工作的能力。

然而，与即将到来的更新相比，这些进展可能都会相形见绌。

ChatGPT 的最新升级版本 - 被称为 Operator 的功能，使其能够完成比以往更复杂的任务，包括与其他网页和服务进行交互。

最重要的是，它能够自主完成这些任务 - 无需人类手把手地指导每一步操作。

简而言之，Operator 是 ChatGPT 首次尝试成为真正的 AI 代理 - 一种具备远超简单聊天机器人能力的新型 AI 工具。

那么，什么是 AI 代理？为什么它们被认为是 AI 发展的下一个重要飞跃？Operator 是否标志着一个全新智能应用、工具和服务时代的到来？

什么是 AI 代理？

首先，当我们谈论 AI 代理时，我们指的是什么？为什么这么多人认为它们如此重要？

OpenAI 将代理定义为"能够为你完成工作"的 AI 工具。

常规的生成式 AI 工具（如 ChatGPT）难道不能做到这一点吗？它们确实可以起草邮件、总结文档和翻译语言。但代理能够执行涉及多阶段指令的更复杂任务。

区别在于：常规 ChatGPT 通常只执行单个指令（称为"提示"），然后将控制权交回给人类用户，等待下一步指示。

相比之下，自主代理可以执行提示，然后利用结果自行判断下一步该做什么，无需人类干预。

它始终致力于实现人类最初给定的目标，但会运用自身的知识、逻辑和推理能力来确定实现目标所需的各个步骤。

Microsoft - 另一个坚信 AI 代理力量的公司 - 描绘了一个未来愿景：AI 代理最终将成为我们的 AI 同事，全天候为我们工作，使我们能够将时间用于需要人类参与的任务。

Operator 是如何工作的？

这些都很令人兴奋，但 ChatGPT 的 Operator 实际上是如何实现这些功能的呢？

本质上，它是通过将 ChatGPT 已经闻名的自然语言和视觉能力与通过网络界面与第三方工具和插件交互的能力相结合来实现的。

根据 OpenAI 的公告，它建立在一个被称为计算机使用代理 (Computer-Using Agent, CUA) 的新 AI 模型基础上。CUA 经过训练，能够使用图形用户界面 - 在这种情况下是网络浏览器 - 配合其基于 GPT4 的视觉能力，使其能够导航按钮和菜单，以及解释文本。

这意味着，例如，它可以浏览和在线购物、研究旅行计划、搜索最便宜的航班并进行预订，或者规划膳食计划，然后安排所有食材的配送。

从本质上说，Operator 使 ChatGPT 从简单地响应用户提示，跃升到能够主动确定并部署完成任务所需的指令。

迈向通用人工智能？

对我来说，Operator 真正令人兴奋的地方在于，它代表着朝着当前 AI 发展的"圣杯" - 通用人工智能 (AGI) 迈出的又一步，尽管可能只是一小步。

通常被称为 AGI 的通用人工智能指的是能够学习完成几乎任何任务的 AI。这与目前大多数被认为是"狭义"的 AI 形成对比，因为后者只能在其设计的任务领域内工作。

需要明确的是，代理型 AI 与通用 AI 并不相同。但是，赋予机器自行完成复杂任务的能力显然是最终创造 AGI 所必需的。

OpenAI 已经明确表示，推进通向 AGI 的最终目标是其首要任务。因此，在这种背景下，其目前对代理型 AI 的关注当然不足为奇，这也是我们可以预期未来 AI 发展方向的良好指标。

那么，这对我们当前意味着什么？

Operator 目前作为研究预览版向美国的 ChatGPT Pro 订阅用户开放。

OpenAI 希望企业能够利用它创建自己的代理，使代理型 AI 成为每个人日常工作流程的一部分。

它已经在与 Doordash、Instacart、OpenTable 等多家公司合作开发面向公众的应用。但是，除了这些知名企业外，许多小型企业也完全可以为自己的内部使用创建代理，就像他们在过去两年使用 OpenAI 的 GPT API 一样。

Operator 当然不是第一个推出的 AI 代理。开源代码库 Hugging Face 上已经有大量在过去两年开发的模型。

然而，通过将它们集成到其广受欢迎的 ChatGPT 平台中，OpenAI 将使代理型 AI 对可能缺乏技术技能来构建开源技术的数百万个人和企业变得可访问。

需要注意的是，截至撰写本文时，这一切都处于非常早期的阶段，初步印象是在代理型 AI 真正准备好进入主流之前，还有许多bug需要解决。

更不用说让 AI 自主行动所带来的安全隐患了 - 它们可能会进行购买并以可能出错的方式与世界互动！

尽管如此，ChatGPT 的这一最新版本无疑是我们近期在公开可用的 AI 领域看到的最令人兴奋的发展之一，很可能会为更多创新打开大门。

来源：Forbes

0赞

好文章，需要你的鼓励

ChatGPT 的"Operator"模式赋予 AI 真正的自主性 - 既令人兴奋又令人恐惧

来源：Forbes

2025

01/29

10:59

分享

点赞

Nextdoor推出AI推荐功能重新设计应用界面

英国生物银行完成NHS全身成像项目创纪录成就

关税凸显了韧性供应链的必要性

学霸还是学渣，数学能力训练到底提升了什么？深度揭秘大模型能力迁移的秘密

首款推理型智能体来了！微软研究助手＋分析助手，帮你更聪明地工作

F5推出后量子密码学解决方案，助力企业应对新一代安全威胁

大胆撞色点燃夏日灵感，西部数据推出极客(TM) G-DRIVE(TM) ArmorATD(TM) Apple独家新配色

AI应用的“安全锁”：安全闪存技术在满足行业认证中的作用

黄仁勋：H20 将在中国恢复销售，并针对中国推出全新且完全兼容的专用 GPU

Meta建设5GW超大规模AI数据中心抢占AI竞赛先机

Google为NotebookLM添加精选笔记本功能，涵盖多元化主题内容

Claude AI 现已集成 Canva 设计平台

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: