OpenAI 推出了 Operator,这是一个能够自动代表用户执行任务的人工智能代理。
与此同时,该公司的两大主要竞争对手也宣布了各自的产品更新。拥有热门 AI 搜索引擎的初创公司 Perplexity AI Inc. 为其 Android 应用推出了类似 Operator 的代理。而已经提供此类自动化功能的 Anthropic PBC,则发布了一项新工具,使其 AI 模型能在回应中提供更好的引用。
OpenAI 的新型 Operator 代理目前作为研究预览版在 ChatGPT Pro 高级版中提供。它可以订购杂货、预订机票、填写表格和执行其他多步骤任务。用户可以通过输入自然语言提示来指示 Operator 执行任务。
在底层,该代理由一个新公布的名为 CUA 的 OpenAI 模型驱动。它部分基于该公司的多模态 GPT-4 大语言模型。OpenAI 表示,CUA 将大语言模型与"通过强化学习实现的高级推理"相结合。
当用户要求 Operator 在网站上执行任务时,代理会使用内置浏览器导航到相关 URL。它可以输入、点击和滚动以执行所需操作。Operator 会定期截屏以检查一切是否按预期运行。
OpenAI 详细说明,用户可以在工作流程的任何时候接管控制。对于输入登录凭证等敏感操作,Operator 会主动要求用户切换到手动模式。据 OpenAI 称,代理会在任务完成前停止截屏。
公司为 Operator 内置了多项数据保护功能。用户可以一键将其从所有账户注销,并阻止 OpenAI 使用其数据进行 AI 训练。此外,还有一个系统可以检测恶意网站试图欺骗 Operator 泄露敏感数据的行为。
代理的某些功能是可定制的。例如,用户可以保存购物清单,让 Operator 每次访问特定电商网站时购买指定商品。还可以创建适用于代理访问的所有网站的自定义设置。
展望未来,OpenAI 计划将 Operator 的可用范围从 ChatGPT Pro 扩展到聊天机器人的其他层级。该公司还将通过其应用程序接口提供该代理。在底层,OpenAI 计划添加增强功能,使 Operator 更擅长完成复杂任务。
"Operator 目前处于早期研究预览阶段,虽然它已经能够处理广泛的任务,但仍在学习、发展中,可能会出错," OpenAI 研究人员在博文中写道。"早期用户反馈将在提高其准确性、可靠性和安全性方面发挥重要作用。"
OpenAI 的竞争对手 Perplexity AI 今天也发布了自己的代理 Perplexity Assistant,可在其 Android 应用中使用。它可以自动进行电商购物、预订出租车等任务。多模态处理功能使 Perplexity Assistant 能够分析智能手机摄像头画面和用户屏幕上的内容。
该代理在发布时可以在 Spotify、YouTube 和 Uber 以及电子邮件、消息和时钟应用中执行操作。Perplexity AI 计划随时间推移添加更多服务支持。
另一个 OpenAI 的竞争对手 Anthropic 今天也宣布了产品更新。该公司通过 API 提供面向企业的 LLM 系列 Claude。使用新增的 Citations 功能,客户现在可以向 Claude 模型上传文档,并让它突出显示用于生成提示响应的具体句子。
好文章,需要你的鼓励
Amazon 发布了名为 Nova Act 的通用 AI 代理,可独立控制网页浏览器执行简单操作。同时推出 Nova Act SDK,供开发者构建原型。Nova Act 将为即将升级的 Alexa+ 提供核心功能。Amazon 称这是研究预览版,开发者可通过 nova.amazon.com 访问工具包。Nova Act 在内部测试中表现优异,是 Amazon AGI 实验室的首个公开产品。
aiOla 推出了一款名为 Jargonic 的新型自动语音识别模型,专为企业使用而设计。这个模型能够处理专业术语、背景噪音和各种口音,无需大量再训练或微调。Jargonic 采用独特的关键词识别系统,可以零样本适应企业特定词汇。在多项基准测试中,Jargonic 在准确性和专业术语识别方面都优于主要竞争对手。这款模型现已通过 API 向企业客户开放使用。
AI 视频创业公司 Runway 发布了最新的 Gen-4 视频合成模型,声称解决了 AI 视频生成的几个关键问题。该模型能够在不同场景中保持人物和物体的一致性,并允许从多个角度拍摄同一环境或主题。这一突破性进展有望为创意专业人士提供更实用的 AI 视频制作工具。