OpenAI于周三宣布对其Agents SDK进行重大更新,将这一原本功能相对基础、设计较为宽松的模型无关SDK,升级为一套面向生产环境的完整智能体工具箱。
最初版本SDK推出距今已逾一年。据OpenAI Responses API技术负责人Steve Coffey介绍,最初的SDK本质上是为聊天机器人场景而构建的。彼时,模型在一次工作流中大约只能执行五到七个步骤,难以更进一步。"而现在,我们的模型已经可以持续工作数小时、数天乃至数周。"
过去一年间,OpenAI陆续为SDK增添了多项功能,包括对MCP的支持、Temporal的持久化执行工具,以及其他第三方工具和服务的集成。不过Coffey也坦言,该SDK目前仍处于1.0之前的阶段,"我们计划进一步完善它。"
沙盒隔离:本次更新的核心亮点
本次更新最受瞩目的特性,是开发者现在可以为智能体提供受控的独立工作空间。其核心理念在于将智能体运行框架与计算资源相分离,从而保障安全性与持久性,同时支持系统在需要时灵活扩展。
这些沙盒几乎可以是任意类型的容器或虚拟机。开发者可以沿用自有容器基础设施,也可以借助Blaxel、Cloudflare、Daytona、E2B、Modal、Runloop和Vercel等平台的工具来创建智能体沙盒。智能体既可使用单一沙盒,也可在需要时启动额外沙盒,或是启动在各自独立沙盒环境中运行的子智能体。
Coffey解释道,借助这一机制,SDK可以作为Temporal任务运行,智能体则在Modal沙盒或Docker容器中执行。"这两者彼此高度隔离。工具调用运行在非特权环境中,而Modal生成的所有代码则运行在特权环境中。"
安全与企业级部署
安全性同样是此次更新的重要考量,尤其对大型企业而言。Coffey指出,个人开发者在处理一次性任务时或许不太在意安全问题,"但另一个极端是大规模企业部署场景,在那里你会非常关注智能体是否运行在完全经过审批的环境中。沙盒中不应存放任何API密钥或敏感凭证,整个环境需要完全隔离,在很多情况下还需要与网络隔离,禁止任何出站访问。"
在沙盒内部,智能体可以调用Shell和文件系统,处理文本文件、图像或PDF等内容。开发者当然也可以自定义智能体可使用的其他工具。
数据访问与状态管理
智能体同样需要访问数据。开发者可以挂载本地文件、AWS S3存储桶、Google Cloud Storage、Azure Blob Storage以及Cloudflare R2,这也使沙盒具备一定的状态保持能力。"如果你希望对容器进行快照,关闭后再以相同的文件系统重新启动,我们正在为此添加支持,"Coffey表示。
即便不使用沙盒,基于Agents SDK构建的智能体现在也支持可配置的记忆功能,以及对文件和文档的处理能力,不过OpenAI预计大多数生产系统仍将采用沙盒化部署方式。
与此前一样,Agents SDK本身不额外收费,用户按照OpenAI标准定价,仅为通过API消耗的Token和工具调用付费。
Q&A
Q1:OpenAI Agents SDK的沙盒功能是什么?有什么用?
A:沙盒是为智能体提供的受控独立工作空间,核心目的是将智能体运行框架与计算资源分离,保障安全性与可持续性,同时支持按需扩展。沙盒可以是任意类型的容器或虚拟机,支持Cloudflare、Vercel、Modal等多个平台,智能体可在其中访问文件系统、执行Shell命令,并可挂载AWS S3、Google Cloud Storage等外部存储。
Q2:使用OpenAI Agents SDK需要额外付费吗?
A:不需要。Agents SDK本身不额外收费,用户只需按照OpenAI的标准定价,为通过API实际消耗的Token数量和工具调用付费即可,没有平台附加费用。
Q3:OpenAI Agents SDK更新后和之前版本相比有哪些主要变化?
A:原版SDK主要面向聊天机器人场景,模型单次工作流只能执行约五到七个步骤。新版本引入了沙盒隔离环境、可配置记忆、文件与文档支持,并集成了MCP、Temporal持久化执行等工具,使智能体能够持续运行数小时乃至数周,真正面向生产环境部署。
好文章,需要你的鼓励
今天讲的出海案例是开创电气,一家金华手持式电动工具制造商,在越南基地完成首款产品验收并形成80万台年产能力。
JETSPEC是由UC San Diego等机构联合提出的推测解码框架,通过树形因果掩码让草稿头在一次前向传播中生成分支一致的候选树,在MATH-500上实现最高9.64倍端到端加速。
研究人员意外发现,标准MOSFET晶体管可同时模拟神经元和突触行为,形成"神经突触随机存取存储器"(NSRAM)。该技术仅需一至两个晶体管即可实现传统需数十乃至数百个元件才能完成的神经信号处理,且与现有硅基制造工艺完全兼容,良率达100%。未来有望应用于边缘AI及高能效神经形态芯片,长远或可挑战GPU地位。
本文介绍了中国科学院自动化所的研究,揭示了大型语言模型在多轮工具调用强化学习中崩溃的根本原因,并系统评估了五种监督信号对训练稳定性和泛化能力的影响。