OpenAI 推出了 Operator,这是一个能够自动代表用户执行任务的人工智能代理。
与此同时,该公司的两大主要竞争对手也宣布了各自的产品更新。拥有热门 AI 搜索引擎的初创公司 Perplexity AI Inc. 为其 Android 应用推出了类似 Operator 的代理。而已经提供此类自动化功能的 Anthropic PBC,则发布了一项新工具,使其 AI 模型能在回应中提供更好的引用。
OpenAI 的新型 Operator 代理目前作为研究预览版在 ChatGPT Pro 高级版中提供。它可以订购杂货、预订机票、填写表格和执行其他多步骤任务。用户可以通过输入自然语言提示来指示 Operator 执行任务。
在底层,该代理由一个新公布的名为 CUA 的 OpenAI 模型驱动。它部分基于该公司的多模态 GPT-4 大语言模型。OpenAI 表示,CUA 将大语言模型与"通过强化学习实现的高级推理"相结合。
当用户要求 Operator 在网站上执行任务时,代理会使用内置浏览器导航到相关 URL。它可以输入、点击和滚动以执行所需操作。Operator 会定期截屏以检查一切是否按预期运行。
OpenAI 详细说明,用户可以在工作流程的任何时候接管控制。对于输入登录凭证等敏感操作,Operator 会主动要求用户切换到手动模式。据 OpenAI 称,代理会在任务完成前停止截屏。
公司为 Operator 内置了多项数据保护功能。用户可以一键将其从所有账户注销,并阻止 OpenAI 使用其数据进行 AI 训练。此外,还有一个系统可以检测恶意网站试图欺骗 Operator 泄露敏感数据的行为。
代理的某些功能是可定制的。例如,用户可以保存购物清单,让 Operator 每次访问特定电商网站时购买指定商品。还可以创建适用于代理访问的所有网站的自定义设置。
展望未来,OpenAI 计划将 Operator 的可用范围从 ChatGPT Pro 扩展到聊天机器人的其他层级。该公司还将通过其应用程序接口提供该代理。在底层,OpenAI 计划添加增强功能,使 Operator 更擅长完成复杂任务。
"Operator 目前处于早期研究预览阶段,虽然它已经能够处理广泛的任务,但仍在学习、发展中,可能会出错," OpenAI 研究人员在博文中写道。"早期用户反馈将在提高其准确性、可靠性和安全性方面发挥重要作用。"
OpenAI 的竞争对手 Perplexity AI 今天也发布了自己的代理 Perplexity Assistant,可在其 Android 应用中使用。它可以自动进行电商购物、预订出租车等任务。多模态处理功能使 Perplexity Assistant 能够分析智能手机摄像头画面和用户屏幕上的内容。
该代理在发布时可以在 Spotify、YouTube 和 Uber 以及电子邮件、消息和时钟应用中执行操作。Perplexity AI 计划随时间推移添加更多服务支持。
另一个 OpenAI 的竞争对手 Anthropic 今天也宣布了产品更新。该公司通过 API 提供面向企业的 LLM 系列 Claude。使用新增的 Citations 功能,客户现在可以向 Claude 模型上传文档,并让它突出显示用于生成提示响应的具体句子。
好文章,需要你的鼓励
Lumen Technologies对美国网络的数据中心和云连接进行重大升级,在16个高连接城市的70多个第三方数据中心提供高达400Gbps以太网和IP服务。该光纤网络支持客户按需开通服务,几分钟内完成带宽配置,最高可扩展至400Gbps且按使用量付费。升级后的网络能够轻松连接数据中心和云接入点,扩展企业应用,并应对AI和数据密集型需求波动。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
RtBrick研究警告,运营商面临AI和流媒体服务带宽需求"压倒性"风险。调查显示87%运营商预期客户将要求更高宽带速度,但81%承认现有架构无法应对下一波AI和流媒体流量。84%反映客户期望已超越网络能力。尽管91%愿意投资分解式网络,95%计划五年内部署,但仅2%正在实施。主要障碍包括领导层缺乏决策支持、运营转型复杂性和专业技能短缺。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。