OpenAI今天宣布推出GPT-5.3-Codex,该公司声称这是迄今为止发布的最强大的智能体编程模型。有趣的是,Claude Code的制造商Anthropic也在同一时间发布了一个新的强大模型。Anthropic的模型Opus 4.6是一个更通用的模型,但Anthropic以其Claude Code产品而闻名。
与Anthropic的Opus 4.6一样,OpenAI将GPT-5.3描述为"前沿模型"。这是AI行业用来描述性能和能力处于最前沿的模型的术语。据OpenAI称,新的5.3 Codex运行速度提高了25%,能够执行更长时间的任务。
OpenAI的GPT-5.3-Codex发布时间就在OpenAI宣布并发布专门用于Codex的Mac应用程序几天之后。
敏锐的OpenAI GPT模型观察者会注意到这个版本的5.3版本号。OpenAI目前最热门的GPT版本是GPT-5.2,而不是GPT-5.3。虽然还没有任何正式宣布或暗示,但我猜测在未来几天或几周内,我们距离通用GPT-5.3的发布不会太远。
我不确定这是令人兴奋还是深感不安。GPT-5.3-Codex是OpenAI的"第一个在创造自己过程中发挥关键作用的模型"。Codex团队使用Codex来调试自己的训练、管理自己的部署,并诊断测试结果。
OpenAI的博客文章说:"通过GPT-5.3-Codex,Codex从一个能够编写和审查代码的智能体,发展成为一个几乎能够完成开发人员和专业人士在计算机上能做的任何事情的智能体。"让我们希望它不会认为人类是多余的。
认识到开发人员、设计师、产品经理和数据科学家在工作中做的远不止编码,GPT-5.3-Codex被设计来支持"软件生命周期中的所有工作——调试、部署、监控、编写产品需求文档、编辑文案、用户研究、测试、指标等等"。该公司报告说,它可以帮助你构建任何你想要构建的东西,特别提到了构建幻灯片演示文稿和电子表格。
该公司表示,这个模型被设计为可以在任务中途调整,具有持续交互且不会丢失上下文的特性。新的Codex Mac应用程序(以及可能即将推出的Windows应用程序)绝对可以帮助在模型为你处理项目时维持与模型的交互。
操作范围也大大延长了。Codex可以运行需要超过一天时间的进程。作为测试,OpenAI构建了两个基于网络的游戏。使用Mac应用程序引入的"技能"功能,测试人员使用网络游戏开发技能通过数百万个Token构建了这两个游戏。
博客文章特别强调了GPT-5.3-Codex如何更好地理解意图。如果你在制作一个"日常网站",博客文章报告说"简单或规格不明确的提示现在默认为具有更多功能和合理默认设置的网站,为你提供一个更强大的起始画布来实现你的想法。"
换句话说,如果你要求Codex"给我做一些漂亮的东西",它就会做到。我在要求Codex 5.2重新设计我的WordPress安全插件的某些部分以使管理界面更具吸引力和说服力方面取得了显著成功。早期Codex版本中存在的一些设计功能在这个最新版本中得到了改进。
博客引用的其他例子包括动态价格显示和自动化客户评价轮播。
我在上周参加的Mac Codex应用程序技术简报中捕捉到的潜台词之一是,一些客户希望获得更快的响应时间。我知道我经常让Codex或Claude Code开始一个编程任务,然后在等待过程完成时切换到其他活动。
虽然我的经验是智能体编程将我的开发过程从几个月加速到几天,但等待仍然有些痛苦。因此,提高性能,从而提高模型的输出速度,总是一个胜利。
根据博客文章,"GPT-5.3-Codex在SWE-Bench Pro和Terminal Bench上创造了新的行业纪录。"该公司说任务需要更少的Token,提高了效率。OpenAI还说,"GPT-5.3-Codex在SWE-Bench Pro和Terminal Bench上创造了新的行业纪录,并在OSWorld和GDPVal上表现出强劲的性能。"这些是该公司用来衡量编码、智能体操作和现实世界能力的基准测试。
OpenAI有一个已发布的准备框架,用于衡量和防范前沿AI能力的严重危害。在宣布GPT-5.3-Codex的博客文章中,该公司表示这个新模型是它第一个在网络安全任务方面被归类为"高能力"的模型。
它经过训练可以识别软件漏洞,具有扩展的安全保障和监控。与此同时,该公司正在启动网络可信访问计划,这是一个加速网络防御研究的试点项目,并捐赠1000万美元的API信用补助来支持网络安全研究。如果你的组织从事"善意安全研究",你可以通过该公司的网络安全资助计划申请API信用。
支持这些行动,博客文章报告说,"我们正在采取预防性方法,部署迄今为止最全面的网络安全安全堆栈。我们的缓解措施包括双重用途安全训练、自动化监控、高级功能的可信访问,以及包括威胁情报在内的执行流程。"
GPT-5.3-Codex现已通过Codex应用程序、CLI、IDE扩展和网页在付费ChatGPT计划中提供。计划提供API访问,该公司预计将提供25%更快的交互。我们本周早些时候报告的针对免费ChatGPT用户的Codex使用促销活动仍然有效,但他们目前仅限于GPT-5.2-Codex。
Q&A
Q1:GPT-5.3-Codex与之前版本相比有什么提升?
A:GPT-5.3-Codex运行速度提高了25%,能够执行更长时间的任务,从原来只能编写和审查代码的智能体发展成为几乎能够完成开发人员和专业人士在计算机上能做的任何事情的智能体,支持软件生命周期中的所有工作。
Q2:GPT-5.3-Codex在网络安全方面有什么特殊能力?
A:GPT-5.3-Codex是OpenAI第一个在网络安全任务方面被归类为"高能力"的模型,经过训练可以识别软件漏洞,具有扩展的安全保障和监控,同时OpenAI部署了最全面的网络安全安全堆栈。
Q3:如何获得GPT-5.3-Codex的访问权限?
A:GPT-5.3-Codex现已通过Codex应用程序、CLI、IDE扩展和网页在付费ChatGPT计划中提供,API访问正在规划中。免费ChatGPT用户目前仅限于使用GPT-5.2-Codex版本。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。