OpenAI 正在推出一套全新的 API 和工具,旨在帮助开发者和企业更高效地构建 AI 代理。这些技术正是驱动其自家 AI 代理 Deep Research (可以独立搜索互联网,生成深入研究、组织完善且有引用的报告) 和 Operator (基于用户文本指令控制网页浏览器光标,自主执行如查找体育票务或预订等操作) 的核心技术。
现在,开发者可以访问这些强大的 OpenAI 一方代理背后的构建模块,从而开发自己的第三方竞品,或者针对特定用例和受众开发更专业的产品和服务。
OpenAI 在推理、多模态处理和安全机制方面的最新进展,特别是其"o"系列推理模型 (o1 和 o3),为这些功能奠定了基础。
OpenAI 平台产品负责人 Olivier Godement 在与 VentureBeat 的视频通话中表示:"很难夸大推理模型对于实现 AI 代理的重要性。此前最大的限制之一是处理长期规划等任务。"
为了解决这些障碍,OpenAI 推出了几项新产品:Responses API、内置的网络和文件搜索工具、计算机使用工具以及开源的 Agents SDK。
这些工具旨在通过减少大量提示工程和自定义编排逻辑的需求,来简化 AI 代理的开发。即使面对来自中国玩家如 Manus、阿里巴巴的 Qwen、DeepSeek,以及本土竞争对手如 Anthropic 和 Google 的日益激烈的竞争,这些工具仍然使得继续在 OpenAI 平台上构建成为一个极具吸引力的选择。
Agents SDK 提供开源工具,支持构建基于非 OpenAI 模型的代理
OpenAI 以开源方式重返市场,发布了 Agents SDK,这是一个帮助开发者管理、协调和优化代理工作流程的工具包。该工具包甚至支持构建由其他非 OpenAI 模型驱动的代理,如来自竞争对手 Anthropic 和 Google 的模型,或来自 DeepSeek、Qwen、Mistral 和 Meta 的 Llama 系列开源模型。
SDK 提供以下关键特性: o 可配置代理 - 具有预定义指令和工具访问权限的 AI 模型 o 智能交接 - 根据上下文在代理之间转移任务的机制 o 内置护栏 - 用于输入验证和内容审核的安全措施 o 追踪和可观察性 - 用于调试和优化代理性能的工具
Responses API 提供的新功能
这次更新的核心是 Responses API,它将 OpenAI 的 Chat Completions API 的特性与 Assistants API 的工具使用功能相结合。该集成允许开发者在单个 API 调用中利用多个内置工具,更容易构建需要复杂、多步骤交互的应用程序。
Responses API 最初支持三个内置工具: o 网络搜索 - 通过从网络获取信息提供实时、带引用的答案 o 文件搜索 - 使用元数据过滤和优化的查询处理从大型文档库中检索相关信息 o 计算机使用工具 - 使 AI 代理能够在计算机上执行操作,如浏览、数据输入和导航软件界面
网络搜索:提供实时信息和引用
网络搜索工具允许开发者将实时搜索功能集成到他们的应用中,这对研究助手、购物指南和内容聚合工具很有用。它为其响应提供来源,确保用户可以验证信息的准确性。
文件搜索:私有云上的智能文档检索
使用文件搜索工具,AI 代理可以从大型文档集合中快速检索相关信息。该工具支持多种文件格式,包括查询优化、元数据过滤和自定义排名等功能,以获得更精确的结果。
文件搜索工具的定价为每千次查询 2.50 美元,存储费用为每 GB 每天 0.10 美元 (第一个 GB 免费)。
计算机使用工具:访问 OpenAI Operator 的核心技术
计算机使用工具通过允许 AI 与计算机界面交互,将代理功能扩展到简单的基于文本的任务之外。该工具由 OpenAI 的计算机使用代理 (CUA) 模型驱动,将 AI 生成的操作转换为可执行命令,实现数据输入和网络导航等任务的自动化。
该工具目前作为研究预览版向使用层级 3-5 的选定开发者开放。定价为每百万输入 token 3 美元,每百万输出 token 12 美元。
对企业领导者的意义
对于 IT 团队领导、CTO 和中层管理者来说,OpenAI 的新工具为自动化和扩展 AI 驱动的流程提供了清晰的路径,而无需大量自定义开发。
内置的网络搜索和文件搜索功能允许企业快速将 AI 驱动的信息检索集成到现有系统中,而计算机使用工具则能够实现与缺乏 API 访问的传统应用程序的自动化交互。
开源 Agents SDK 进一步赋能组织协调团队间的 AI 驱动工作流程,使部署能够提高客户支持、文档处理和市场研究等领域效率的代理变得更加容易。
未来展望
OpenAI 将这些新发布视为构建全面 AI 代理平台的第一步。该公司计划在未来几个月推出更多工具和集成,以帮助开发者更有效地部署、评估和扩展代理应用。
OpenAI 还表示将继续改进代理应用的安全功能,包括防止提示注入和未授权数据访问的保护措施。
感兴趣的开发者现在就可以探索 OpenAI 的文档和 API 演练场开始使用这些新工具。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。