OpenAI今日宣布对其Codex Desktop应用进行重大更新。Codex最初是OpenAI推出的一款面向智能体编程的工具,而此次更新后,Codex Desktop正被定位为一款综合性生产力工具,与Claude Cowork颇为相似。
尽管新功能的实力毋庸置疑,但其定位表述仍略显模糊。OpenAI在昨日的媒体简报中承认,Codex Desktop的主要受众仍是程序员,但新增的生产力功能已远超代码生成的范畴。
值得一提的是,OpenAI简报上的一张幻灯片显示,公司内部80%的员工都在使用Codex,这一数据恰恰说明非技术人员同样可以从Codex Desktop中受益。
电脑操控功能
此次更新的核心亮点之一是"电脑操控"功能——Codex Desktop内置的AI可以直接控制用户的电脑。该功能允许AI在后台运行应用程序,用户无需等待,可同步在其他应用中处理别的任务。目前,电脑操控功能仅支持macOS系统。
内置浏览器
Codex Desktop现已内置应用内浏览器。OpenAI在简报中未对其自动化操作进行演示,具体表现如何还有待实际体验后进一步评测。
值得关注的是,该版本新增了一项早该上线的功能:用户可直接点击浏览器中的某个元素,AI便能识别用户的点击意图。如此一来,用户无需费力描述"修改第二列第三个标题的字体",只需点击目标元素并告诉AI"把这个改成那样"即可。若该功能运行稳定,将大幅提升操作效率。
图像生成能力
ChatGPT在图像生成方面已具备相当出色的能力,但Codex Desktop此前一直欠缺这项功能。如今,用户可以创建一个智能体,在整体自动化流程中自动生成图片、图表或示意图。这一功能同样需要通过实测来验证效果。若其进步幅度能跟上Gemini同类产品的迭代节奏,图像生成能力将成为一大实用亮点。
上下文记忆与任务延续
自动化任务现在可以融入已有的对话线程,使AI能够调取此前交流的上下文。Codex可自主分配任务,据OpenAI介绍,这意味着它能够"自动唤醒以继续执行长期任务,任务周期甚至可以跨越数天乃至数周"。
虽然ChatGPT此前已具备记忆功能,但Codex应用存在一个明显短板——每次重新启动后都需要重新同步信息。现在,该应用新增了记忆功能,据官方介绍,其"能够记住以往使用过程中的有用信息,包括个人偏好、操作纠错记录,以及需要花费大量时间才能收集到的内容"。OpenAI表示:"这将帮助未来的任务更快完成,并达到此前只有通过大量自定义指令才能实现的质量水平。"
主动提醒与任务续接
Codex新增了一项随应用启动的主动提醒功能。开发团队对此描述如下:"Codex现在还会主动提议有价值的工作内容,帮助用户从上次中断的地方继续推进。"简而言之,当用户重新打开Codex时,AI会尝试识别用户之前正在处理的内容,并主动建议继续推进相关工作流程。
面向开发者的新特性
此次更新还包含多项面向开发者的功能,其中最受关注的是多标签页支持。遗憾的是,目前标签页似乎还不支持颜色标注——这对于需要用不同颜色区分项目的用户来说略有不便。不过,按照当前的迭代速度,这一功能有望很快推出。
插件支持
Codex Desktop此次发布时提供了超过100个插件的访问权限。在AI领域,插件是指集成了技能、应用对接与MCP服务器的功能组合,可实现更深层的扩展能力。鉴于OpenClaw此前因用户贡献的技能引发大量恶意软件问题,笔者就插件安全性向开发团队提问,对方表示OpenAI会在插件上架前进行统一审核。
新版Codex Desktop面向所有拥有Codex访问权限的OpenAI订阅用户开放。需要注意的是,运行更多自动化任务和长周期项目将更快消耗Token配额,建议在让智能体无人值守运行之前,先进行充分测试。
新版Codex Desktop同时支持Mac和Windows系统,但电脑操控功能目前仅限macOS,且暂未在欧盟地区上线。
Q&A
Q1:Codex Desktop的电脑操控功能具体能做什么?
A:电脑操控功能允许Codex Desktop内置的AI直接控制用户的电脑,并在后台运行应用程序。用户无需等待任务完成,可以同时在其他应用中继续工作。目前该功能仅支持macOS系统,欧盟地区暂未开放。
Q2:Codex Desktop的记忆功能和以前有什么不同?
A:此前Codex应用每次重新启动后都需要重新同步上下文信息,非常不便。新版本新增的记忆功能可以保留用户的个人偏好、操作纠错记录以及历史收集的信息,让后续任务完成得更快、质量更高,无需每次重新配置。
Q3:Codex Desktop的插件安全性如何保障?
A:针对插件的安全问题,OpenAI表示会在插件正式上架前进行统一审核,确保其安全性,避免出现类似OpenClaw平台因用户贡献内容引发恶意软件泛滥的情况。目前提供超过100个经过审核的插件供用户使用。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。