OpenAI周一宣布,将为其AI编程智能体Codex发布新版本的GPT-5。该公司表示,这个名为GPT-5-Codex的新模型在"思考"时间上比以往模型更加灵活动态,在编程任务上可以花费几秒钟到七小时不等的时间。因此,它在编程智能体基准测试中表现更佳。
新模型现已在Codex产品中推出——可通过终端、IDE、GitHub或ChatGPT访问——面向所有ChatGPT Plus、Pro、Business、Edu和Enterprise用户。OpenAI表示计划未来向API客户提供该模型。
此次更新是OpenAI努力让Codex在与其他AI编程产品竞争中更具优势的一部分,这些竞品包括Claude Code、Anysphere的Cursor或微软的GitHub Copilot。由于用户需求强烈,AI编程工具市场在过去一年变得更加拥挤。Cursor在2025年初ARR超过5亿美元,而类似的代码编辑器Windsurf则成为混乱收购尝试的焦点,其团队最终在Google和Cognition之间分裂。
OpenAI表示,GPT-5-Codex在SWE-bench Verified(衡量编程智能体能力的基准)以及衡量大型成熟代码库重构任务性能的基准测试中,都优于GPT-5。
该公司还表示,他们训练GPT-5-Codex进行代码审查,并请经验丰富的软件工程师评估模型的审查评论。据报告,工程师们发现GPT-5-Codex提交的错误评论更少,同时增加了更多"高影响力评论"。
在一次简报中,OpenAI的Codex产品负责人Alexander Embiricos表示,性能提升很大程度上归功于GPT-5-Codex的动态"思考能力"。用户可能熟悉ChatGPT中GPT-5的路由器,它根据任务复杂性将查询引导到不同模型。Embiricos说GPT-5-Codex工作方式类似,但内部没有路由器,可以实时调整在任务上工作的时长。
Embiricos表示,相比于在开始时就决定在问题上使用多少计算能力和时间的路由器,这是一个优势。相反,GPT-5-Codex可以在处理问题五分钟后决定需要再花一个小时。Embiricos说他见过该模型在某些情况下需要超过七小时的时间。
Q&A
Q1:GPT-5-Codex相比之前的模型有什么改进?
A:GPT-5-Codex的主要改进是具有动态"思考能力",可以根据任务复杂性实时调整处理时间,从几秒钟到七小时不等。它在编程智能体基准测试中表现更佳,代码审查时错误评论更少,高影响力评论更多。
Q2:哪些用户可以使用GPT-5-Codex?
A:目前GPT-5-Codex已向所有ChatGPT Plus、Pro、Business、Edu和Enterprise用户推出,可通过终端、IDE、GitHub或ChatGPT访问。OpenAI计划未来向API客户提供该模型。
Q3:GPT-5-Codex与其他AI编程工具相比有什么优势?
A:GPT-5-Codex的主要优势是其动态思考能力,不像传统路由器在开始时就决定计算资源分配,它可以在处理过程中实时调整,在问题处理五分钟后决定是否需要更多时间,最长可达七小时。
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。