OpenAI 旗下的 Codex 桌面应用程序今日迎来全新版本更新,带来了一系列功能升级与改进,涵盖开发者专属能力拓展、非开发类知识工作场景延伸,以及为打造公司"超级应用"所奠定的基础架构。
其中最受关注的新特性,是支持在后台运行任务的能力。OpenAI 表示,该功能可在不干扰用户正常桌面操作的前提下,让 Codex 独立完成各类任务。
OpenAI 在官方博客中对此次更新作出说明:
借助后台电脑操控能力,Codex 现在可以通过独立的光标进行查看、点击和输入,从而使用电脑上的所有应用程序。多个智能体可在 Mac 上并行运行,且不会干扰用户在其他应用中的正常使用。对于开发者而言,这一功能在迭代前端改动、测试应用程序或操作无 API 接口的软件时尤为实用。
此外,Codex 现在还支持提前数小时、数天乃至数周安排待执行任务,并能在指定时间自动唤醒并完成相应操作。
新版本还内置了应用内网页浏览器,用户可借此直观查看 Codex 在网页端的工作成果,并能在页面特定位置留下批注形式的操作指令,操作方式类似于设计团队常用的网页反馈工具。与此同时,新版本新增了对 gpt-image-1.5 图像生成模型的调用能力,生成的图像可直接用于原型设计与效果图制作等场景。
OpenAI 表示:"我们计划逐步扩展该功能,使 Codex 能够全面掌控浏览器,而不仅限于本地运行的 Web 应用。"
在软件开发能力方面,Codex 现支持同时运行多个终端标签页,并可根据 GitHub 上的代码审查评论自动采取对应操作。
此次更新还新增了 90 款插件,进一步扩展了 Codex 可接入的工作流类型,覆盖范围延伸至软件开发领域之外的通用知识工作任务与应用场景。
从表面上看,这些更新似乎是一系列互不相关的零散改动,但背后实则贯穿着一条清晰的主线——其中许多新增功能,正是外界对 OpenAI "超级应用"的预期所在。这款超级应用有望整合 Atlas 浏览器项目、Codex 以及其他智能体工具,从而服务于更广泛的使用场景。
在一场媒体沟通会上,Codex 产品负责人蒂博·索蒂奥(Thibault Sottiaux)表示:"我们其实在悄悄做一件事——在公众视野中,以 Codex 为起点,逐步将超级应用构建成型。"
Q&A
Q1:Codex 后台电脑操控功能是如何运作的?
A:Codex 的后台电脑操控功能通过独立光标实现对电脑上所有应用程序的查看、点击和输入操作。多个智能体可在 Mac 上同时并行运行,并且不会干扰用户在其他应用中正常工作。这对开发者来说尤为实用,适合用于迭代前端改动、测试应用或操作没有 API 接口的软件。
Q2:Codex 新版本的内置浏览器有什么用途?
A:Codex 新内置的应用内网页浏览器,允许用户直接查看 Codex 在网页端执行任务的实际效果,并可在页面的特定位置添加批注形式的操作指令,类似于设计团队日常使用的网页反馈工具。OpenAI 计划未来进一步扩展该功能,使 Codex 能够全面掌控浏览器,而不只局限于本地运行的 Web 应用。
Q3:OpenAI 所说的"超级应用"具体指什么?
A:OpenAI 的"超级应用"是一款计划中的综合性应用,将整合 Atlas 网页浏览器、Codex 以及其他智能体工具,覆盖广泛的使用场景。Codex 产品负责人透露,OpenAI 目前正以 Codex 为基础,逐步在公众视野中将超级应用的功能框架搭建成型,而此次更新正是其中的重要一环。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。