OpenAI 推出了 Operator,这是一个能够自动代表用户执行任务的人工智能代理。
与此同时,该公司的两大主要竞争对手也宣布了各自的产品更新。拥有热门 AI 搜索引擎的初创公司 Perplexity AI Inc. 为其 Android 应用推出了类似 Operator 的代理。而已经提供此类自动化功能的 Anthropic PBC,则发布了一项新工具,使其 AI 模型能在回应中提供更好的引用。
OpenAI 的新型 Operator 代理目前作为研究预览版在 ChatGPT Pro 高级版中提供。它可以订购杂货、预订机票、填写表格和执行其他多步骤任务。用户可以通过输入自然语言提示来指示 Operator 执行任务。
在底层,该代理由一个新公布的名为 CUA 的 OpenAI 模型驱动。它部分基于该公司的多模态 GPT-4 大语言模型。OpenAI 表示,CUA 将大语言模型与"通过强化学习实现的高级推理"相结合。
当用户要求 Operator 在网站上执行任务时,代理会使用内置浏览器导航到相关 URL。它可以输入、点击和滚动以执行所需操作。Operator 会定期截屏以检查一切是否按预期运行。
OpenAI 详细说明,用户可以在工作流程的任何时候接管控制。对于输入登录凭证等敏感操作,Operator 会主动要求用户切换到手动模式。据 OpenAI 称,代理会在任务完成前停止截屏。
公司为 Operator 内置了多项数据保护功能。用户可以一键将其从所有账户注销,并阻止 OpenAI 使用其数据进行 AI 训练。此外,还有一个系统可以检测恶意网站试图欺骗 Operator 泄露敏感数据的行为。
代理的某些功能是可定制的。例如,用户可以保存购物清单,让 Operator 每次访问特定电商网站时购买指定商品。还可以创建适用于代理访问的所有网站的自定义设置。
展望未来,OpenAI 计划将 Operator 的可用范围从 ChatGPT Pro 扩展到聊天机器人的其他层级。该公司还将通过其应用程序接口提供该代理。在底层,OpenAI 计划添加增强功能,使 Operator 更擅长完成复杂任务。
"Operator 目前处于早期研究预览阶段,虽然它已经能够处理广泛的任务,但仍在学习、发展中,可能会出错," OpenAI 研究人员在博文中写道。"早期用户反馈将在提高其准确性、可靠性和安全性方面发挥重要作用。"
OpenAI 的竞争对手 Perplexity AI 今天也发布了自己的代理 Perplexity Assistant,可在其 Android 应用中使用。它可以自动进行电商购物、预订出租车等任务。多模态处理功能使 Perplexity Assistant 能够分析智能手机摄像头画面和用户屏幕上的内容。
该代理在发布时可以在 Spotify、YouTube 和 Uber 以及电子邮件、消息和时钟应用中执行操作。Perplexity AI 计划随时间推移添加更多服务支持。
另一个 OpenAI 的竞争对手 Anthropic 今天也宣布了产品更新。该公司通过 API 提供面向企业的 LLM 系列 Claude。使用新增的 Citations 功能,客户现在可以向 Claude 模型上传文档,并让它突出显示用于生成提示响应的具体句子。
好文章,需要你的鼓励
Inception是一家位于帕洛阿尔托的新公司,由斯坦福大学计算机科学教授Stefano Ermon创立,声称开发了一种基于“扩散”技术的新型AI模型,称为扩散基础的大型语言模型(DLM)。目前备受关注的生成AI模型大致可分为两类:大型语言模型(LLMs)和扩散模型。Inception的模型结合了传统LLMs的功能,如代码生成和问答,但性能显著更快,计算成本更低。
亚马逊正在重塑其旗舰语音助手 Alexa,通过整合 AI 代理、模型混合和浏览器操作能力,打造更智能的 Alexa+。新版本不仅可以主动提供个性化信息,还能理解复杂指令并完成多步骤任务。亚马逊希望通过这种创新方式,让 Alexa 成为更强大、更智能的家庭语音助手。
亚马逊在周三分享了一个令人印象深刻的“代理”未来愿景——在这个未来中,改进后的 Alexa+ 将处理无数日常任务,从预订餐厅到寻找家电维修工。如果亚马逊能够实现这一目标,它可能会成为首个推出全面、以消费者为中心的代理工具的公司。该公司希望将更自然、更具表现力的 Alexa(由生成性 AI 模型驱动)与能够以完全自主、智能的方式接入第一方和第三方应用、服务及平台的能力结合起来。