AI模型迭代周期仍在持续推进。OpenAI近日正式发布了GPT-5.5与GPT-5.5 Pro,这也是目前其能力最强的模型。
GPT-5.5将面向所有ChatGPT付费用户及Codex用户开放,而GPT-5.5 Pro则仅向ChatGPT的Pro、Business和Enterprise用户推出。API版本预计即将上线,但定价也将高于以往。
就在Anthropic推出Opus 4.7一周后,OpenAI随即跟进。从目前已公布的基准测试结果来看,GPT-5.5和GPT-5.5 Pro在多项主流基准上均超越了Opus 4.7。不过,在部分测试中,GPT-5.4 Pro的表现仍优于默认版GPT-5.5。
在发布前的媒体沟通会上,OpenAI联合创始人兼总裁格雷格·布罗克曼将GPT-5.5定义为"新一类智能",并表示:"这是迈向更具智能体特性、更直觉化计算方式的重要一步。"
布罗克曼强调,新模型在处理模糊任务时表现尤为出色。"它用起来更加直觉化,能看懂一个定义不清的问题,并自主判断下一步该做什么。在我看来,它正在为我们未来使用电脑、处理计算任务的方式奠定基础——也就是大规模智能体计算的运作方式。"
尽管能力大幅提升,新模型的响应速度并不逊于前代,且使用的Token数量更少。布罗克曼表示:"与GPT-5.4相比,它思考更快、更敏锐,消耗的Token也更少,这意味着前沿AI对企业和消费者而言更加可及,这也是我们的目标之一。"
从技术层面看,GPT-5.5在单Token延迟上与前代持平,同时在Token使用效率上更优。OpenAI称,GPT-5.5能以"竞争性前沿编程模型一半的成本"实现顶尖智能水平。
编程能力提升
新模型在编程方面同样取得了显著进步。OpenAI研究副总裁米娅·格拉斯指出,模型在Codex中处理"高级工程师级别工作"的能力大幅增强。有内测用户将一份杂乱的振感代码库交给GPT-5.5,要求将其整理为"规范的代码库",结果模型的输出质量相当于一位高级工程师的水准。
在基准测试中,GPT-5.5在Terminal-Bench 2.0(测试命令行工作流处理能力)和SWE-Bench Pro(测试真实GitHub问题解决能力)上分别获得82.7%和58.6%的成绩。
目前尚无Anthropic Opus 4.7在SWE-Bench Pro上的对比数据,但Opus 4.7在该测试中达到64.3%,这是Opus仍领先的领域之一。而在Terminal-Bench 2.0上,GPT-5.5以82.7%领先于Opus 4.7的69.4%。
计算机操作能力
计算机操控能力也随此次更新进一步提升。OpenAI首席研究官陈马克表示:"结合Codex的计算机操控能力,我们真正感受到模型在处理计算机任务时,已具备与操控代码相似的灵活性与准确性。"
在OSWorld-Verified测试(要求模型在操作系统中执行实际计算机任务)中,GPT-5.5以78.7%的成绩略高于Opus 4.7的78%。
在学术基准测试方面,Opus以及谷歌较旧的Gemini 3.1 Pro仍有一定优势,但在数学类基准(如FrontierMath Tier 1-3和Tier 4)上,GPT-5.5超越了两者。
值得一提的是,OpenAI再次强调,本次模型的构建过程中使用了GPT-5.5本身及Codex参与开发。
不只是模型本身
布罗克曼还着重指出,对于OpenAI而言,模型本身已只是更大产品体系的一部分。
"我们希望将智能体能力带给所有希望通过电脑完成工作的人,而不仅限于软件工程师。大家需要理解,模型本身已不再是完整产品——它可以被看作大脑,但我们同样在打造'身体',也就是我们发布的应用、智能体框架,这些都是我们正在持续推进的方向。"
网络安全能力与风险管控
结合近期Anthropic Mythos模型在网络安全能力方面引发的讨论,OpenAI也对此次发布的安全防护措施作出说明。
OpenAI认为,针对具备高级网络安全能力的模型,最佳路径是"确保这些能力能够用于加速网络防御、强化整体生态系统"。公司表示将部署"业界领先的安全保障措施",并计划扩大访问范围以全面加速网络防御能力。
在CyberGym基准测试中,GPT-5.5获得81.8%,而Anthropic的Mythos得分为83.1%。
定价与访问权限
GPT-5.5面向所有ChatGPT付费用户及Codex用户开放,GPT-5.5 Pro仅限Pro、Business和Enterprise用户在ChatGPT中使用。此外,GPT-5.5思考模式(Thinking mode)也将向所有付费用户开放。
在Codex中,GPT-5.5将拥有40万Token的上下文窗口。OpenAI还为需要更高速度的用户提供了Fast模式,该模式速度提升1.5倍,但费用也随之增加2.5倍。
在API定价方面,GPT-5.5的输入价格为每百万Token 5美元,输出为每百万Token 30美元,上下文窗口为100万Token,定价是GPT-5.4的两倍。对此,OpenAI在博客中解释称:"虽然GPT-5.5定价高于GPT-5.4,但其智能水平更高、Token效率也显著提升。在Codex中,我们对体验进行了精细调优,使GPT-5.5在大多数场景下以更少的Token实现更好的效果,同时在各订阅级别继续提供充足的使用额度。"
GPT-5.5 Pro的API定价为输入每百万Token 30美元、输出180美元,与GPT-5.4 Pro持平。
Q&A
Q1:GPT-5.5和GPT-5.5 Pro有什么区别?
A:GPT-5.5面向所有ChatGPT付费用户及Codex用户开放,而GPT-5.5 Pro仅限Pro、Business和Enterprise用户在ChatGPT中使用。性能上,GPT-5.5 Pro定位更高端,API定价也更贵(输入每百万Token 30美元,输出180美元),而标准版GPT-5.5 API定价为输入5美元、输出30美元。
Q2:GPT-5.5在编程方面比之前提升了多少?
A:GPT-5.5在编程能力上有明显提升。在Terminal-Bench 2.0测试中得分82.7%,优于Anthropic Opus 4.7的69.4%;在Codex中具备40万Token上下文窗口。OpenAI研究副总裁表示,模型已能完成"高级工程师级别"的代码整理工作,可将杂乱代码库重构为规范代码库。
Q3:GPT-5.5的API价格比GPT-5.4贵多少?
A:GPT-5.5 API定价是GPT-5.4的两倍,输入为每百万Token 5美元,输出为30美元,上下文窗口扩展至100万Token。OpenAI对此解释称,新模型在Token使用效率上更高,整体成本效益优于前代,实际使用成本不一定成比例增加。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。