上个月,在《华尔街日报》的相关报道之后,OpenAI正式确认正在开发一款桌面超级应用,该应用将把ChatGPT、代码智能体Codex以及Atlas浏览器整合为一体化体验。不过,OpenAI此次并未直接发布这款超级应用,而是先推出了Codex的重大功能更新,大幅扩展了该软件的能力边界。尽管如此,本次更新已经让外界得以一窥OpenAI在这一方向上的整体构想。
"我们正在公开透明地构建这款超级应用,"Codex负责人蒂博·索蒂奥(Thibault Sottiaux)在OpenAI媒体简报会上表示,"此次发布主要面向开发者,未来我们将把受众扩展到更广泛的用户群体。"在此之前,最新版Codex已经为开发者带来了具备多用途能力的AI智能体,这些智能体可以在"更广泛的操作范围"内运作,同时更具主动性。
具体而言,本次更新带来了一系列新功能,其中最受关注的是电脑操作能力。Codex内置的智能体可以与PC上的其他应用进行交互——用户只需在提示词中指明特定程序,或者让智能体自行判断最适合的工具。虽然竞品(如Claude Cowork)也具备类似的电脑操作功能,但OpenAI认为Codex在这方面具备独特优势:其研发的专属技术能够让智能体在运行其他应用的同时,不会拖慢整个系统,从而实现人机并行协作。与此同时,OpenAI还为Codex新增了111款插件,整合了技能扩展、应用连接和模型上下文协议(MCP)服务器接入,让Codex拥有更多获取上下文信息、调用开发者常用工具的渠道。
此外,Codex还加入了内置浏览器,并配备了批注系统,允许用户针对正在开发的网页或Web应用的具体部分发出调整指令。在OpenAI的演示中,Codex团队成员通过该工具指示Codex调整图表边距,以解决Y轴显示被截断的问题。与之配套的还有内置图像生成功能,Codex可调用gpt-image-1.5模型来生成产品概念图、原型设计、前端界面效果图,乃至简单游戏的素材资源,同时还能通过截图来验证当前进展是否符合用户预期。
本次更新还预览了两项记忆功能。第一项功能允许Codex从历史任务中调取上下文信息,以此为后续提示词的处理提供参考;OpenAI表示,随着时间推移,这将帮助Codex更快速、更高质量地完成任务。第二项功能则是主动建议功能——Codex会根据已积累的上下文主动提出行动建议,例如在一天工作开始时,提醒用户回复同事在某份Google文档草稿中留下的评论。
如需体验更新后的Codex,OpenAI已开始向使用ChatGPT账号登录桌面应用的用户逐步推送新版本。电脑操作功能目前优先向macOS用户开放,欧盟和英国用户将在稍后获得访问权限,上述记忆功能的推送计划同样如此。
Q&A
Q1:Codex这次更新有哪些主要新功能?
A:本次Codex更新带来了多项重要新功能:一是电脑操作能力,智能体可与PC其他应用交互,且不影响系统整体运行;二是111款新插件,扩展了工具调用和上下文获取能力;三是内置浏览器与批注系统,支持针对网页具体部分发出调整指令;四是内置图像生成功能,可调用gpt-image-1.5生成设计稿和素材;五是记忆功能,能从历史任务中提取上下文并主动提出行动建议。
Q2:OpenAI的桌面超级应用什么时候正式发布?
A:目前OpenAI尚未公布超级应用的正式发布时间。此次推出的Codex更新被视为超级应用的阶段性铺垫,Codex负责人表示正在"公开透明地构建超级应用",当前版本主要面向开发者,未来才会向更广泛的用户群体开放。
Q3:更新后的Codex如何获取?所有用户都能用吗?
A:更新后的Codex正在向使用ChatGPT账号登录桌面应用的用户逐步推送。电脑操作功能目前优先支持macOS系统,欧盟和英国用户需稍等才能访问。记忆功能对欧盟和英国用户同样延后开放,并非所有功能对全球用户同步上线。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。