OpenAI 正在推出一套全新的 API 和工具,旨在帮助开发者和企业更高效地构建 AI 代理。这些技术正是驱动其自家 AI 代理 Deep Research (可以独立搜索互联网,生成深入研究、组织完善且有引用的报告) 和 Operator (基于用户文本指令控制网页浏览器光标,自主执行如查找体育票务或预订等操作) 的核心技术。
现在,开发者可以访问这些强大的 OpenAI 一方代理背后的构建模块,从而开发自己的第三方竞品,或者针对特定用例和受众开发更专业的产品和服务。
OpenAI 在推理、多模态处理和安全机制方面的最新进展,特别是其"o"系列推理模型 (o1 和 o3),为这些功能奠定了基础。
OpenAI 平台产品负责人 Olivier Godement 在与 VentureBeat 的视频通话中表示:"很难夸大推理模型对于实现 AI 代理的重要性。此前最大的限制之一是处理长期规划等任务。"
为了解决这些障碍,OpenAI 推出了几项新产品:Responses API、内置的网络和文件搜索工具、计算机使用工具以及开源的 Agents SDK。
这些工具旨在通过减少大量提示工程和自定义编排逻辑的需求,来简化 AI 代理的开发。即使面对来自中国玩家如 Manus、阿里巴巴的 Qwen、DeepSeek,以及本土竞争对手如 Anthropic 和 Google 的日益激烈的竞争,这些工具仍然使得继续在 OpenAI 平台上构建成为一个极具吸引力的选择。
Agents SDK 提供开源工具,支持构建基于非 OpenAI 模型的代理
OpenAI 以开源方式重返市场,发布了 Agents SDK,这是一个帮助开发者管理、协调和优化代理工作流程的工具包。该工具包甚至支持构建由其他非 OpenAI 模型驱动的代理,如来自竞争对手 Anthropic 和 Google 的模型,或来自 DeepSeek、Qwen、Mistral 和 Meta 的 Llama 系列开源模型。
SDK 提供以下关键特性: o 可配置代理 - 具有预定义指令和工具访问权限的 AI 模型 o 智能交接 - 根据上下文在代理之间转移任务的机制 o 内置护栏 - 用于输入验证和内容审核的安全措施 o 追踪和可观察性 - 用于调试和优化代理性能的工具
Responses API 提供的新功能
这次更新的核心是 Responses API,它将 OpenAI 的 Chat Completions API 的特性与 Assistants API 的工具使用功能相结合。该集成允许开发者在单个 API 调用中利用多个内置工具,更容易构建需要复杂、多步骤交互的应用程序。
Responses API 最初支持三个内置工具: o 网络搜索 - 通过从网络获取信息提供实时、带引用的答案 o 文件搜索 - 使用元数据过滤和优化的查询处理从大型文档库中检索相关信息 o 计算机使用工具 - 使 AI 代理能够在计算机上执行操作,如浏览、数据输入和导航软件界面
网络搜索:提供实时信息和引用
网络搜索工具允许开发者将实时搜索功能集成到他们的应用中,这对研究助手、购物指南和内容聚合工具很有用。它为其响应提供来源,确保用户可以验证信息的准确性。
文件搜索:私有云上的智能文档检索
使用文件搜索工具,AI 代理可以从大型文档集合中快速检索相关信息。该工具支持多种文件格式,包括查询优化、元数据过滤和自定义排名等功能,以获得更精确的结果。
文件搜索工具的定价为每千次查询 2.50 美元,存储费用为每 GB 每天 0.10 美元 (第一个 GB 免费)。
计算机使用工具:访问 OpenAI Operator 的核心技术
计算机使用工具通过允许 AI 与计算机界面交互,将代理功能扩展到简单的基于文本的任务之外。该工具由 OpenAI 的计算机使用代理 (CUA) 模型驱动,将 AI 生成的操作转换为可执行命令,实现数据输入和网络导航等任务的自动化。
该工具目前作为研究预览版向使用层级 3-5 的选定开发者开放。定价为每百万输入 token 3 美元,每百万输出 token 12 美元。
对企业领导者的意义
对于 IT 团队领导、CTO 和中层管理者来说,OpenAI 的新工具为自动化和扩展 AI 驱动的流程提供了清晰的路径,而无需大量自定义开发。
内置的网络搜索和文件搜索功能允许企业快速将 AI 驱动的信息检索集成到现有系统中,而计算机使用工具则能够实现与缺乏 API 访问的传统应用程序的自动化交互。
开源 Agents SDK 进一步赋能组织协调团队间的 AI 驱动工作流程,使部署能够提高客户支持、文档处理和市场研究等领域效率的代理变得更加容易。
未来展望
OpenAI 将这些新发布视为构建全面 AI 代理平台的第一步。该公司计划在未来几个月推出更多工具和集成,以帮助开发者更有效地部署、评估和扩展代理应用。
OpenAI 还表示将继续改进代理应用的安全功能,包括防止提示注入和未授权数据访问的保护措施。
感兴趣的开发者现在就可以探索 OpenAI 的文档和 API 演练场开始使用这些新工具。
好文章,需要你的鼓励
科技泡沫并非世界末日,从经济角度看,泡沫是押注过大导致供过于求。AI泡沫问题复杂在于AI软件开发节奏与数据中心建设周期的时间错配。甲骨文关联数据中心获180亿美元信贷,Meta承诺三年内投入6000亿美元基础设施。麦肯锡调查显示企业虽广泛使用AI但规模有限,多数仍持观望态度。微软CEO表示更担心数据中心空间不足而非芯片短缺,电力需求成为新瓶颈。
香港中文大学研究团队开发的Search-R3系统成功解决了大语言模型推理与搜索分离的问题,通过两阶段训练让AI在深度思考过程中直接生成搜索向量。该系统在多个领域测试中显著超越现有方法,特别是启用推理后性能提升明显,为AI系统设计提供了推理与搜索统一的新范式,展现了从专门化向通用化发展的重要方向。
Goodfire.ai研究人员首次发现AI语言模型中记忆和推理功能通过完全独立的神经通路运作。研究显示,移除记忆通路后,模型丧失97%的训练数据复述能力,但逻辑推理能力几乎完全保留。令人意外的是,算术运算与记忆共享神经通路而非推理通路,这可能解释了AI模型在数学方面的困难。该技术未来有望用于移除版权内容或敏感信息而不损害模型核心功能。
这项由ETH苏黎世等机构发表的突破性研究首次系统性揭示了优化器选择对AI模型量化性能的重大影响。研究团队发现传统的异常值理论完全失效,并开发了革命性的ABC分解框架来准确预测量化后性能。实验证明Shampoo优化器在量化场景下表现最优,该发现为AI模型的实际部署提供了重要指导,有望让AI技术在资源受限设备上发挥更大作用。