OpenAI周一宣布,将为其AI编程智能体Codex发布新版本的GPT-5。该公司表示,这个名为GPT-5-Codex的新模型在"思考"时间上比以往模型更加灵活动态,在编程任务上可以花费几秒钟到七小时不等的时间。因此,它在编程智能体基准测试中表现更佳。
新模型现已在Codex产品中推出——可通过终端、IDE、GitHub或ChatGPT访问——面向所有ChatGPT Plus、Pro、Business、Edu和Enterprise用户。OpenAI表示计划未来向API客户提供该模型。
此次更新是OpenAI努力让Codex在与其他AI编程产品竞争中更具优势的一部分,这些竞品包括Claude Code、Anysphere的Cursor或微软的GitHub Copilot。由于用户需求强烈,AI编程工具市场在过去一年变得更加拥挤。Cursor在2025年初ARR超过5亿美元,而类似的代码编辑器Windsurf则成为混乱收购尝试的焦点,其团队最终在Google和Cognition之间分裂。
OpenAI表示,GPT-5-Codex在SWE-bench Verified(衡量编程智能体能力的基准)以及衡量大型成熟代码库重构任务性能的基准测试中,都优于GPT-5。
该公司还表示,他们训练GPT-5-Codex进行代码审查,并请经验丰富的软件工程师评估模型的审查评论。据报告,工程师们发现GPT-5-Codex提交的错误评论更少,同时增加了更多"高影响力评论"。
在一次简报中,OpenAI的Codex产品负责人Alexander Embiricos表示,性能提升很大程度上归功于GPT-5-Codex的动态"思考能力"。用户可能熟悉ChatGPT中GPT-5的路由器,它根据任务复杂性将查询引导到不同模型。Embiricos说GPT-5-Codex工作方式类似,但内部没有路由器,可以实时调整在任务上工作的时长。
Embiricos表示,相比于在开始时就决定在问题上使用多少计算能力和时间的路由器,这是一个优势。相反,GPT-5-Codex可以在处理问题五分钟后决定需要再花一个小时。Embiricos说他见过该模型在某些情况下需要超过七小时的时间。
Q&A
Q1:GPT-5-Codex相比之前的模型有什么改进?
A:GPT-5-Codex的主要改进是具有动态"思考能力",可以根据任务复杂性实时调整处理时间,从几秒钟到七小时不等。它在编程智能体基准测试中表现更佳,代码审查时错误评论更少,高影响力评论更多。
Q2:哪些用户可以使用GPT-5-Codex?
A:目前GPT-5-Codex已向所有ChatGPT Plus、Pro、Business、Edu和Enterprise用户推出,可通过终端、IDE、GitHub或ChatGPT访问。OpenAI计划未来向API客户提供该模型。
Q3:GPT-5-Codex与其他AI编程工具相比有什么优势?
A:GPT-5-Codex的主要优势是其动态思考能力,不像传统路由器在开始时就决定计算资源分配,它可以在处理过程中实时调整,在问题处理五分钟后决定是否需要更多时间,最长可达七小时。
好文章,需要你的鼓励
Luminary Cloud宣布完成7200万美元B轮融资,专注开发"物理AI"技术。该公司云原生平台可将仿真速度提升100倍,利用物理信息模型实时预测汽车、飞机等产品性能。公司推出针对特定行业的预训练模型,包括与本田合作的汽车设计模型和与Otto航空合作的飞机开发模型。融资由西门子风投领投,将用于扩大研发团队和市场销售。
香港中文大学联合上海AI实验室推出Dispider系统,首次实现AI视频"边看边聊"能力。通过创新的三分式架构设计,将感知、决策、反应功能独立分离,让AI能像人类一样在观看视频过程中进行实时交流,在StreamingBench测试中显著超越现有系统,为教育、娱乐、医疗、安防等领域的视频AI应用开启新可能。
伦敦量子动态科技公司宣布交付业界首台采用传统半导体制造工艺的量子计算机。该系统已安装在英国国家量子计算中心,使用标准化300毫米硅晶圆,是首台自旋量子比特计算机。系统采用CMOS技术,占地约三个19英寸服务器机架,具备数据中心友好特性。公司开发的可扩展瓦片架构支持大规模生产,未来可扩展至每个量子处理单元数百万量子比特,为商业化应用奠定基础。
Atla公司发布Selene Mini,这是一个仅有80亿参数的AI评估模型,却在11个基准测试中全面超越GPT-4o-mini。通过精心的数据筛选和创新训练策略,该模型不仅能准确评判文本质量,还能在医疗、金融等专业领域表现出色。研究团队将模型完全开源,为AI评估技术的普及和发展做出贡献。