OpenAI周一宣布,将为其AI编程智能体Codex发布新版本的GPT-5。该公司表示,这个名为GPT-5-Codex的新模型在"思考"时间上比以往模型更加灵活动态,在编程任务上可以花费几秒钟到七小时不等的时间。因此,它在编程智能体基准测试中表现更佳。
新模型现已在Codex产品中推出——可通过终端、IDE、GitHub或ChatGPT访问——面向所有ChatGPT Plus、Pro、Business、Edu和Enterprise用户。OpenAI表示计划未来向API客户提供该模型。
此次更新是OpenAI努力让Codex在与其他AI编程产品竞争中更具优势的一部分,这些竞品包括Claude Code、Anysphere的Cursor或微软的GitHub Copilot。由于用户需求强烈,AI编程工具市场在过去一年变得更加拥挤。Cursor在2025年初ARR超过5亿美元,而类似的代码编辑器Windsurf则成为混乱收购尝试的焦点,其团队最终在Google和Cognition之间分裂。
OpenAI表示,GPT-5-Codex在SWE-bench Verified(衡量编程智能体能力的基准)以及衡量大型成熟代码库重构任务性能的基准测试中,都优于GPT-5。
该公司还表示,他们训练GPT-5-Codex进行代码审查,并请经验丰富的软件工程师评估模型的审查评论。据报告,工程师们发现GPT-5-Codex提交的错误评论更少,同时增加了更多"高影响力评论"。
在一次简报中,OpenAI的Codex产品负责人Alexander Embiricos表示,性能提升很大程度上归功于GPT-5-Codex的动态"思考能力"。用户可能熟悉ChatGPT中GPT-5的路由器,它根据任务复杂性将查询引导到不同模型。Embiricos说GPT-5-Codex工作方式类似,但内部没有路由器,可以实时调整在任务上工作的时长。
Embiricos表示,相比于在开始时就决定在问题上使用多少计算能力和时间的路由器,这是一个优势。相反,GPT-5-Codex可以在处理问题五分钟后决定需要再花一个小时。Embiricos说他见过该模型在某些情况下需要超过七小时的时间。
Q&A
Q1:GPT-5-Codex相比之前的模型有什么改进?
A:GPT-5-Codex的主要改进是具有动态"思考能力",可以根据任务复杂性实时调整处理时间,从几秒钟到七小时不等。它在编程智能体基准测试中表现更佳,代码审查时错误评论更少,高影响力评论更多。
Q2:哪些用户可以使用GPT-5-Codex?
A:目前GPT-5-Codex已向所有ChatGPT Plus、Pro、Business、Edu和Enterprise用户推出,可通过终端、IDE、GitHub或ChatGPT访问。OpenAI计划未来向API客户提供该模型。
Q3:GPT-5-Codex与其他AI编程工具相比有什么优势?
A:GPT-5-Codex的主要优势是其动态思考能力,不像传统路由器在开始时就决定计算资源分配,它可以在处理过程中实时调整,在问题处理五分钟后决定是否需要更多时间,最长可达七小时。
好文章,需要你的鼓励
B&H近期对多款M5 Pro MacBook Pro机型推出300美元优惠。14英寸M5 Pro版本(48GB内存+1TB固态硬盘)现售价2299美元,较原价2599美元节省300美元,且该配置在亚马逊无法购买,折扣机会更为难得。此外,16英寸M5 Pro版本(64GB内存+1TB固态硬盘)同样享有300美元折扣。B&H在多款高配MacBook机型上的定价已低于亚马逊,是近期可找到的最优价格。
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
Insta360推出GO 3S复古套装,将现代4K运动相机与胶片时代美学结合。套装核心仍是仅重39克的GO 3S,新增复古取景器、胶片风格滤镜、NFC定制外壳及可延长录制时长至76分钟的电池组。复古取景器模仿老式腰平相机设计,鼓励用户放慢节奏、专注构图。相机内置11种色彩预设及负片、正片等滤镜,同时保留FlowState防抖、4K拍摄及10米防水能力,面向热衷复古影像风格的年轻创作者。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。