OpenAI 正在推出一系列重要更新,针对其新近发布的 Responses API,旨在帮助开发者和企业更便捷地构建智能化、具备行动能力的代理应用。
这些增强功能包括对远程 Model Context Protocol (MCP) 服务器的支持、集成图像生成和 Code Interpreter 工具,以及对文件搜索功能的升级——所有这些均自 5 月 21 日起生效。
Responses API 最初于 2025 年 3 月发布,作为 OpenAI 为第三方开发者提供的工具箱,使其能够在 ChatGPT 及其内部 AI 代理 Deep Research 和 Operator 的核心功能之上构建代理应用。
自发布以来,该 API 已处理数万亿个 Token,并支持从市场调研、教育到软件开发及金融分析等各种用例。
利用该 API 构建的热门应用包括 Zencoder 的编码代理、 Revi 的市场情报助手以及 MagicSchool 的教育平台。
Responses API 的基础与目的
Responses API 与 OpenAI 的开源 Agents SDK 于 2025 年 3 月同步亮相,这是 OpenAI 提供第三方开发者访问其自有 AI 代理(如 Deep Research 和 Operator)所使用技术的一项举措。
这样一来,外部创业公司和企业便可将与 ChatGPT 相同的技术整合到他们自家的产品和服务中,无论是供内部员工使用还是面向客户和合作伙伴。
最初,该 API 结合了 Chat Completions 与 Assistants API 的元素——提供内置的网页及文件搜索工具以及计算机使用工具,使开发者能在无需复杂调度逻辑的情况下构建自主工作流。OpenAI 当时表示, Chat Completions API 将于 2026 年中期被弃用。
Responses API 提供了对模型决策的可见性、对实时数据的访问以及允许代理检索、推理并对信息做出响应的集成功能。
此次发布标志着向为开发者提供一套统一工具以最小摩擦构建具备生产能力、针对特定领域的 AI 代理迈出的转变。
远程 MCP 服务器支持拓宽了集成潜力
此次更新中的一个关键新增功能是对远程 MCP 服务器的支持。开发者现可通过仅几行代码将 OpenAI 的模型连接至 Stripe、Shopify、 Twilio 等外部工具和服务。这一能力使得开发者能够创建能够执行操作并与用户日常依赖的系统交互的代理。为支持这一不断发展的生态系统,OpenAI 已加入 MCP 指导委员会。
新工具的接入:原生图像生成与 Code Interpreter
此次更新为 Responses API 带来了新的内置工具,增强了代理在单次 API 调用中所能实现的功能。
基于 OpenAI 大热的 GPT-4o 原生图像生成模型的一个变体(该模型曾掀起一股“Studio Ghibli”风格动漫梗的热潮,并因其受欢迎而让 OpenAI 的服务器吃紧,但显然它也能生成许多其他图像风格)现已通过 API 以模型名称 “gpt-image-1” 提供。该工具包括诸如实时流预览和多轮细化等可能非常实用且颇为出色的新特性。
这使得开发者能够构建能够根据用户输入动态生成与编辑图像的应用。
此外,Code Interpreter 工具现已集成进 Responses API,使模型能够在其推理过程中处理数据分析、复杂数学和基于逻辑的任务。
该工具有助于提高模型在各种技术基准测试中的性能,并允许代理展现出更为复杂的行为。
改进的文件搜索与上下文处理
文件搜索功能也已得到升级。开发者现在可以跨多个向量存储进行搜索,并应用基于属性的过滤,从而仅检索与搜索最相关的内容。
这提高了代理所使用信息的精准度,强化了它们解答复杂问题及在庞大知识领域内执行操作的能力。
面向企业级的新可靠性、透明度功能
若干功能专为满足企业需求而设计。后台模式允许长时间运行的异步任务,从而解决在进行密集推理时因超时或网络中断而引发的问题。
新增的 Reasoning summaries 能够以自然语言解释模型内部的思考过程,有助于调试和提升透明度。
加密的 reasoning items 为零数据保留客户提供了额外的隐私保护层。
这些设计允许模型在不将任何数据存储在 OpenAI 服务器上的情况下重用先前的推理步骤,从而提高了安全性和效率。
最新功能已覆盖 OpenAI 的 GPT-4o 系列、GPT-4.1 系列及 o 系列模型,包括 o3 和 o4-mini。这些模型现能在多次工具调用和请求之间维持推理状态,从而以更低的成本和延迟产生更准确的响应。
昨日价格即今日价格!
尽管功能集得到了扩展,OpenAI 已确认 Responses API 中新工具和功能的定价将与现有费率保持一致。
例如,Code Interpreter 工具的定价为每个会话 0.03 美元,文件搜索的使用费用为每 1,000 次调用 2.50 美元,而存储费用在首个免费千兆字节后为每 GB 每天 0.10 美元。
网页搜索的定价则依据模型和搜索上下文大小而变化,范围为每 1,000 次调用 25 至 50 美元。通过 gpt-image-1 工具生成图像的费用也会根据分辨率和质量等级收费,起价为每幅图像 0.011 美元。
所有工具使用均按所选择模型的 Token 费率计费,新增加的功能并未额外加价。
Responses API 的未来展望
随着这些更新,OpenAI 继续扩展 Responses API 的可能性。开发者可以获得更丰富的工具集和企业级功能,而企业也能构建出更加集成、功能更强大且更安全的 AI 驱动应用。
所有功能自 5 月 21 日起已全部上线,定价和实施细节可通过 OpenAI 的文档获得。
好文章,需要你的鼓励
DDN推出Infinia对象存储系统,采用键值存储架构和Beta Epsilon树数据结构,实现读写性能平衡。系统在对象列表性能上比AWS快100倍,延迟降至毫秒级,支持多租户和SLA管理。通过与英伟达合作优化RAG管道,在AWS上实现22倍性能提升并降低60%成本。
大连理工大学和浙江大学研究团队提出MoR(Mixture of Reasoning)方法,通过将多种推理策略嵌入AI模型参数中,让AI能自主选择最适合的思考方式,无需人工设计专门提示词。该方法包含思维生成和数据集构建两阶段,实验显示MoR150模型性能显著提升,比基线模型提高2.2%-13.5%,为AI推理能力发展开辟新路径。
Alpine Linux核心开发者Ariadne Conill推出了Wayback项目,这是一个实验性的X兼容层,允许使用Wayland组件运行完整的X桌面环境。该项目本质上是一个提供足够Wayland功能来托管rootful Xwayland服务器的存根合成器。与现有的XWayland不同,Wayback旨在创建一个类似X11风格的基于Wayland的显示服务器,让用户能够继续使用传统的X11窗口管理器和桌面环境,而无需重写或替换这些熟悉的工具。
剑桥大学研究团队开发了FreNBRDF技术,通过引入频率修正机制显著提升了计算机材质建模的精度。该技术采用球面谐波分析提取材质频率信息,结合自动编码器架构实现高质量材质重建与编辑。实验表明,FreNBRDF在多项指标上超越现有方法,特别在频率一致性方面改善近30倍,为游戏开发、影视制作、电商预览等领域提供了重要技术支撑。