AI已经对软件编写方式产生了深远影响,编程中的大量基础工作现在由大量智能体和子智能体完成。但随着开发者不断尝试人机协作的新交互界面和形式,即使是最先进的AI实验室也很难跟上这一趋势。
当前的趋势是智能体化软件开发——即AI智能体可以独立完成编程任务的系统——Claude Code和Cowork应用是其中的典型代表。与此同时,OpenAI一直在逐步构建其Codex工具,该工具于去年4月作为命令行工具推出,并在一个月后扩展到Web界面。
现在,OpenAI正在采取重大举措迎头赶上。本周一,该公司推出了Codex的全新macOS应用,集成了过去一年中流行的许多智能体实践方法。这款新应用旨在支持多个智能体并行工作,整合了智能体技能和其他前沿工作流程。此次发布距离GPT-5.2-Codex(OpenAI最强大的编程模型)推出还不到两个月,该公司希望这足以吸引Claude Code的用户。
"如果你真的想在复杂项目上做精细工作,5.2是目前最强大的模型,"首席执行官山姆·奥特曼在新闻电话会议上对记者说,"然而,它的使用门槛较高,因此将这种级别的模型能力放入更灵活的界面中,我们认为会产生相当大的影响。"
尽管奥特曼对GPT-5.2充满信心是可以理解的,但编程基准测试却呈现出更复杂的情况。截至发稿时,GPT-5.2确实在TerminalBench(一项测量AI处理命令行编程任务能力的测试)中占据榜首位置。但Gemini 3和Claude Opus的智能体记录了大致相当的分数——虽然较低,但在基准测试的误差范围内。另一个编程基准测试SWE-bench的结果类似,该测试评估AI修复真实世界软件漏洞的能力,显示GPT-5.2并无明显优势。不过,智能体应用场景一直难以进行有效基准测试,而最先进的模型在用户体验上可能存在显著差异。
Codex应用还配备了一系列新功能,OpenAI表示这些功能将帮助它实现与各种Claude应用的平等竞争,在某些情况下甚至超越它们。Codex应用将支持自动化功能,可以设置为按自动计划在后台运行,结果会放入队列中供用户返回时查看。用户还可以为智能体选择不同的个性——从务实到富有同理心——以适应他们的工作风格。
但对公司而言,最大的卖点是AI所实现的惊人开发速度。"你可以从一张白纸开始使用这个工具,在几个小时内创建出一个相当复杂的软件,"奥特曼说,"我输入新想法的速度就是能够构建内容的极限。"
Q&A
Q1:OpenAI的Codex新应用有什么特别之处?
A:Codex新应用是OpenAI推出的macOS应用,集成了智能体化编程实践,支持多个智能体并行工作。它配备了自动化后台运行功能,可按计划执行任务并将结果放入队列。用户还可以为智能体选择不同个性风格,从务实到富有同理心,以适应不同工作习惯。
Q2:GPT-5.2-Codex在编程能力上真的最强吗?
A:情况比较复杂。GPT-5.2在TerminalBench测试中排名第一,但Gemini 3和Claude Opus的智能体得分与之接近,差距在误差范围内。在SWE-bench基准测试中,GPT-5.2也没有显示出明显优势。不过智能体应用场景难以有效评测,实际用户体验可能存在显著差异。
Q3:使用Codex应用能多快完成软件开发?
A:据OpenAI首席执行官奥特曼介绍,使用Codex应用可以从零开始,在几个小时内创建出相当复杂的软件。他表示输入新想法的速度就是构建内容的极限,AI大大加快了软件开发速度,使开发者能够快速将想法转化为实际应用。
好文章,需要你的鼓励
大众汽车旗下ID. Polo与Cupra Raval已在西班牙马托雷尔工厂正式下线投产。两款车型起售价分别为24,995欧元和26,000欧元,均基于MEB+平台打造,搭载37kWh或52kWh电池组,续航里程最高可达454公里。这是大众"电动城市车家族"系列的首批产品,预计今年夏末秋初开始交付。大众集团通过跨品牌资源整合,实现约6亿欧元的成本节约,后续还将推出ID. Cross等新成员。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
三星宣布将于6月8日起为Samsung Health应用推出重磅功能更新,赶在Galaxy Watch 9传闻发布之前落地。新版本将引入多项AI驱动的生物特征分析功能,包括:综合心率、血氧、皮肤温度等数据的每日活力评分(Vitals)、结合体成分数据评估长期心脏健康的心脏健康评分、优化训练强度的每日有氧负荷追踪,以及横向对比用户群体的健身指数。此外,应用界面将重新划分为睡眠、营养、活动、正念和体征五大板块,并新增抗氧化指数、年龄指数和听力保护等个性化功能。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。