近期,英伟达的 Jim Fan 等人将生成式 AI 的当前发展阶段称为"代理时代",但这很可能会让人大失所望。
原因很简单:大多数人并不需要 AI 代理来帮忙预订旅行、网上购物或餐厅订位。
那些确实需要代理的人——比如那些缺乏朋友圈的行业巨头、渴望曝光的名人等,他们已经有了更好的选择:人类私人助理,甚至是专门执行命令的整个公司团队。
科技迷们幻想每个人都想要一个类似漫威电影宇宙中服务亿万富翁 Tony Stark 的 AI 代理 Jarvis。然而,对于生活并不复杂的普通人来说,让 Jarvis 偶尔帮忙点个外卖实在是大材小用。
除了人们过度自我膨胀地认为自己应该拥有一个软件仆人之外,AI 代理的部署还面临着诸多障碍,这些都会限制其实用性。
OpenAI 的 Operator,就像 Anthropic 之前的计算机使用 API 一样,结合了生成式 AI 交互(现在常见的提示和响应模式)、多模态模型(支持视觉、音频和文本交互)、链式思维推理、浏览器自动化以及第三方 API 访问。
这确实是个不错的技术组合,但它实现的网络自动化并不新鲜。Operator 能做的一切,之前都可以通过其他编程或手动方式实现。
演示视频展示了一些任务示例,每个任务都与特定的在线服务提供商相关联——"我需要一辆洛杉矶的便宜租车"链接到 Priceline;"帮我找个可以停放 22 英尺房车的地方,要有电力接口"链接到 Hipcamp;"我想在巴黎找一家能看到埃菲尔铁塔的精品酒店"链接到 Booking.com。
OpenAI 难道没听说过 Google 搜索吗?他们当然知道,这实际上是要开辟一个新的在线服务分发渠道,让 OpenAI 取代 Google 成为把关者、收费者和数据聚合者。
[文章过长,我将继续翻译剩余部分]
虽然可以理解为什么 OpenAI 想成为客户和企业之间的中心媒介,但企业为什么要甘愿成为 OpenAI 生态系统中的终端,放弃与客户的直接联系,这一点就不那么清晰了。
也许公司们急于参与是为了排除竞争对手——如果 Uber 通过 Operator 接单,Lyft 就没机会了。
但如果 Lyft 最终也加入这个生态系统,Operator 将如何决定把服务请求分配给哪个品牌呢?或者 Operator 会要求客户自己做决定——这种干预表明人类可能不需要中介服务就能更好地完成预订过程?同样地,为什么像 Booking.com 这样的公司不能将自己的开源 AI 模型整合到 IT 基础设施中,作为专注于特定站点任务的品牌特定代理呢?
除了品牌稀释之外,还有什么潜在成本?这是否是一个付费参与的安排?如果不是,它会变成这样吗?处理成百上千甚至数百万个 Operator 实例访问服务器和交互是否会产生基础设施成本?OpenAI 计划通过其 Stargate 项目在 AI 基础设施上投资约 5000 亿美元,这表明了该超级实验室的野心。至于这些数据中心中运行的 AI 服务是否有需求,还有待观察。
问题重重
AI 爬虫造成的带宽负担已经成为一个问题。根据 DoubleVerify 的数据,"2024 年已知机器人印象产生的常规无效流量中有创纪录的 16% 来自与 AI 抓取器相关的机器人,如 GPTBot、ClaudeBot 和 AppleBot。" AI 代理会让这种情况变得更糟吗?
Operator 目前作为研究预览版向月付 200 美元的美国 Pro 级订阅用户开放。而且,代理服务在完成复杂任务时显然会消耗大量的 tokens、计算周期、水资源和能源。这些资源的使用值得吗?
在不必要的情况下依赖 AI 在伦理上是站不住脚的
考虑到人脑进行数学运算所需的能量比计算机少一百万倍,在不必要的情况下依赖 AI 从数据中心使用对环境影响的角度来看是不道德的。
更不用说为了销售内容生成服务,在未经补偿的情况下使用受版权保护的内容来训练 AI 模型所涉及的道德缺失了。
还有就是 Operator 完成所有必要步骤所需的时间——有时超过几分钟,如果代理没有完全停止的话。如果任务简单容易完成,可能一个人在浏览器中花差不多的时间就能完成。如果任务复杂,需要多次人工干预,也许从一开始就应该由人来处理整个过程。
别忘了政策问题。许多网站出于正当理由(防止垃圾邮件或恶意机器人)禁止自动化交互。仅仅因为 Operator 来访就会改变吗?别忘了它的制造者警告说:"我们知道不法分子可能会试图滥用这项技术。"
根据 AI 专业出版物 Every 的报道,Operator 使用 OpenAI 数据中心的浏览器而不是用户的桌面浏览器(不同的 IP 地址和用户代理会阻碍屏蔽)。撇开这个设计决策的隐私影响不谈,其结果之一是像 Reddit、Figma 和 YouTube 这样的网站已经在拒绝 Operator 的访问。
为了展示 Operator 的能力,OpenAI 的联合创始人之一 Andrej Karpathy 让 AI 代理在讨论 Operator 公告的 Hacker News 帖子中发表评论,总结了帖子中表达的观点。
AI 生成的评论平淡无奇,毫无立场,符合人们对生成式 AI 的一贯期望。它理所当然地受到了论坛参与者的抨击:"你可能认为这很可爱或不可避免,但这也是你如何摧毁互联网社区,加速其从一个隐含信任的公共广场转变为一个充满对抗性和污染的荒地。"
尽管 Karpathy 随后发布了一些 Operator 运行的细节,描述了过程中的各种失败和延迟,但他通过让 Operator 生成回复来回应批评,这也印证了批评者的观点——AI 驱动的交互会赶走人们。
因此,不仅是 AI 代理对于提议的任务并非真正必需,而且没有人想要与它们打交道。AI 在人类空间里根本不受欢迎。至少 Operator 在某些自动化 API 交互中会受到欢迎,前提是事先进行了协商。
但正如微软前 Windows 总裁 Steven Sinofsky 所观察到的,自动化比大多数人想象的要困难得多。
他在去年 10 月的一篇文章中写道:"大多数构建过自动化的人都知道,或者最终会知道,它是多么脆弱。它之所以脆弱,是因为步骤没有被遵循。工具和连接会以意想不到的方式失败。或者最关键的是,输入的精确度或完整性远不如所需。而且他们会发现,解决这些问题中的任何一个都极其复杂。"
Sinofsky 表示对 AI 在自动化方面的长期作用持乐观态度,但预计这不会容易,而且人类必须继续参与其中。
因此,Operator 看起来不像 Jarvis,更像是一个需要牵着手的幼儿,至少暂时如此。如果 Operator 的目标之一是取代人类助理,那就享受这些像孩子一样的员工吧。
但至少 AI 代理并非完全无用;想想几年前让城市街道杂乱不堪的电动滑板车,它们展示了风险投资的傲慢和对公共空间的蔑视。
电动滑板车在某些场景下是有用的——对于那些步行需要相当长时间(取决于各种因素,可能是 20、30 或 40 分钟)的行程,适合那些不太担心受伤的年龄群体,在天气宜人的时候,不需要携带太多负载,距离不太远的情况下。
Operator 就是这样。总会有人欣赏它的。(R)
好文章,需要你的鼓励
AMD Radeon(TM) RX 9000 系列依托AI 加速为玩家带来极致游戏体验。
Inception Labs 于周四发布了 Mercury Coder,这是一种新的 AI 语言模型,利用扩散技术比传统模型更快地生成文本。与逐字生成文本的传统模型(如 ChatGPT)不同,基于扩散的模型(如 Mercury)能够同时生成完整的响应,并将其从最初的遮蔽状态逐步精炼为连贯的文本。
微软终于将其 AI 助手 Copilot 作为独立应用程序推出 macOS 版本。这款免费应用现已在 Mac App Store 上线,支持多种功能如文本翻译、问题解答、文档生成等。Copilot 采用 OpenAI 的 GPT-4 和 DALL-E 3 等模型,标志着微软在 AI 领域的重要布局。该应用要求 M1 或更新的 Mac 设备,以及 macOS 14 或更高版本。