OpenAI 推出了 Operator,这是一个能够自动代表用户执行任务的人工智能代理。
与此同时,该公司的两大主要竞争对手也宣布了各自的产品更新。拥有热门 AI 搜索引擎的初创公司 Perplexity AI Inc. 为其 Android 应用推出了类似 Operator 的代理。而已经提供此类自动化功能的 Anthropic PBC,则发布了一项新工具,使其 AI 模型能在回应中提供更好的引用。
OpenAI 的新型 Operator 代理目前作为研究预览版在 ChatGPT Pro 高级版中提供。它可以订购杂货、预订机票、填写表格和执行其他多步骤任务。用户可以通过输入自然语言提示来指示 Operator 执行任务。
在底层,该代理由一个新公布的名为 CUA 的 OpenAI 模型驱动。它部分基于该公司的多模态 GPT-4 大语言模型。OpenAI 表示,CUA 将大语言模型与"通过强化学习实现的高级推理"相结合。
当用户要求 Operator 在网站上执行任务时,代理会使用内置浏览器导航到相关 URL。它可以输入、点击和滚动以执行所需操作。Operator 会定期截屏以检查一切是否按预期运行。
OpenAI 详细说明,用户可以在工作流程的任何时候接管控制。对于输入登录凭证等敏感操作,Operator 会主动要求用户切换到手动模式。据 OpenAI 称,代理会在任务完成前停止截屏。
公司为 Operator 内置了多项数据保护功能。用户可以一键将其从所有账户注销,并阻止 OpenAI 使用其数据进行 AI 训练。此外,还有一个系统可以检测恶意网站试图欺骗 Operator 泄露敏感数据的行为。
代理的某些功能是可定制的。例如,用户可以保存购物清单,让 Operator 每次访问特定电商网站时购买指定商品。还可以创建适用于代理访问的所有网站的自定义设置。
展望未来,OpenAI 计划将 Operator 的可用范围从 ChatGPT Pro 扩展到聊天机器人的其他层级。该公司还将通过其应用程序接口提供该代理。在底层,OpenAI 计划添加增强功能,使 Operator 更擅长完成复杂任务。
"Operator 目前处于早期研究预览阶段,虽然它已经能够处理广泛的任务,但仍在学习、发展中,可能会出错," OpenAI 研究人员在博文中写道。"早期用户反馈将在提高其准确性、可靠性和安全性方面发挥重要作用。"
OpenAI 的竞争对手 Perplexity AI 今天也发布了自己的代理 Perplexity Assistant,可在其 Android 应用中使用。它可以自动进行电商购物、预订出租车等任务。多模态处理功能使 Perplexity Assistant 能够分析智能手机摄像头画面和用户屏幕上的内容。
该代理在发布时可以在 Spotify、YouTube 和 Uber 以及电子邮件、消息和时钟应用中执行操作。Perplexity AI 计划随时间推移添加更多服务支持。
另一个 OpenAI 的竞争对手 Anthropic 今天也宣布了产品更新。该公司通过 API 提供面向企业的 LLM 系列 Claude。使用新增的 Citations 功能,客户现在可以向 Claude 模型上传文档,并让它突出显示用于生成提示响应的具体句子。
好文章,需要你的鼓励
无人机食品配送服务商Flytrex与全球知名披萨连锁品牌Little Caesars宣布合作,推出全新Sky2无人机,最大载重达4公斤,可一次配送两个大披萨及饮料,满足全家用餐需求。Sky2支持最远6.4公里的配送范围,平均从起飞到送达仅需4.5分钟。首个试点门店已在德克萨斯州怀利市上线,并实现与Little Caesars订单系统的直接集成。
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
法国社会住房项目ViliaSprint?已正式完工,成为欧洲最大的3D打印多户住宅建筑,共12套公寓,建筑面积800平方米。项目由PERI 3D Construction使用COBOD BOD2打印机完成,整体工期较传统建造缩短3个月,实际打印仅用34天(原计划50天),现场操作人员从6人减至3人,建筑废料率从10%降至5%。建筑采用可打印混凝土,集成光伏板及热泵系统,能源自给率约达60%。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。