AI模型迭代周期仍在持续推进。OpenAI近日正式发布了GPT-5.5与GPT-5.5 Pro,这也是目前其能力最强的模型。
GPT-5.5将面向所有ChatGPT付费用户及Codex用户开放,而GPT-5.5 Pro则仅向ChatGPT的Pro、Business和Enterprise用户推出。API版本预计即将上线,但定价也将高于以往。
就在Anthropic推出Opus 4.7一周后,OpenAI随即跟进。从目前已公布的基准测试结果来看,GPT-5.5和GPT-5.5 Pro在多项主流基准上均超越了Opus 4.7。不过,在部分测试中,GPT-5.4 Pro的表现仍优于默认版GPT-5.5。
在发布前的媒体沟通会上,OpenAI联合创始人兼总裁格雷格·布罗克曼将GPT-5.5定义为"新一类智能",并表示:"这是迈向更具智能体特性、更直觉化计算方式的重要一步。"
布罗克曼强调,新模型在处理模糊任务时表现尤为出色。"它用起来更加直觉化,能看懂一个定义不清的问题,并自主判断下一步该做什么。在我看来,它正在为我们未来使用电脑、处理计算任务的方式奠定基础——也就是大规模智能体计算的运作方式。"
尽管能力大幅提升,新模型的响应速度并不逊于前代,且使用的Token数量更少。布罗克曼表示:"与GPT-5.4相比,它思考更快、更敏锐,消耗的Token也更少,这意味着前沿AI对企业和消费者而言更加可及,这也是我们的目标之一。"
从技术层面看,GPT-5.5在单Token延迟上与前代持平,同时在Token使用效率上更优。OpenAI称,GPT-5.5能以"竞争性前沿编程模型一半的成本"实现顶尖智能水平。
编程能力提升
新模型在编程方面同样取得了显著进步。OpenAI研究副总裁米娅·格拉斯指出,模型在Codex中处理"高级工程师级别工作"的能力大幅增强。有内测用户将一份杂乱的振感代码库交给GPT-5.5,要求将其整理为"规范的代码库",结果模型的输出质量相当于一位高级工程师的水准。
在基准测试中,GPT-5.5在Terminal-Bench 2.0(测试命令行工作流处理能力)和SWE-Bench Pro(测试真实GitHub问题解决能力)上分别获得82.7%和58.6%的成绩。
目前尚无Anthropic Opus 4.7在SWE-Bench Pro上的对比数据,但Opus 4.7在该测试中达到64.3%,这是Opus仍领先的领域之一。而在Terminal-Bench 2.0上,GPT-5.5以82.7%领先于Opus 4.7的69.4%。
计算机操作能力
计算机操控能力也随此次更新进一步提升。OpenAI首席研究官陈马克表示:"结合Codex的计算机操控能力,我们真正感受到模型在处理计算机任务时,已具备与操控代码相似的灵活性与准确性。"
在OSWorld-Verified测试(要求模型在操作系统中执行实际计算机任务)中,GPT-5.5以78.7%的成绩略高于Opus 4.7的78%。
在学术基准测试方面,Opus以及谷歌较旧的Gemini 3.1 Pro仍有一定优势,但在数学类基准(如FrontierMath Tier 1-3和Tier 4)上,GPT-5.5超越了两者。
值得一提的是,OpenAI再次强调,本次模型的构建过程中使用了GPT-5.5本身及Codex参与开发。
不只是模型本身
布罗克曼还着重指出,对于OpenAI而言,模型本身已只是更大产品体系的一部分。
"我们希望将智能体能力带给所有希望通过电脑完成工作的人,而不仅限于软件工程师。大家需要理解,模型本身已不再是完整产品——它可以被看作大脑,但我们同样在打造'身体',也就是我们发布的应用、智能体框架,这些都是我们正在持续推进的方向。"
网络安全能力与风险管控
结合近期Anthropic Mythos模型在网络安全能力方面引发的讨论,OpenAI也对此次发布的安全防护措施作出说明。
OpenAI认为,针对具备高级网络安全能力的模型,最佳路径是"确保这些能力能够用于加速网络防御、强化整体生态系统"。公司表示将部署"业界领先的安全保障措施",并计划扩大访问范围以全面加速网络防御能力。
在CyberGym基准测试中,GPT-5.5获得81.8%,而Anthropic的Mythos得分为83.1%。
定价与访问权限
GPT-5.5面向所有ChatGPT付费用户及Codex用户开放,GPT-5.5 Pro仅限Pro、Business和Enterprise用户在ChatGPT中使用。此外,GPT-5.5思考模式(Thinking mode)也将向所有付费用户开放。
在Codex中,GPT-5.5将拥有40万Token的上下文窗口。OpenAI还为需要更高速度的用户提供了Fast模式,该模式速度提升1.5倍,但费用也随之增加2.5倍。
在API定价方面,GPT-5.5的输入价格为每百万Token 5美元,输出为每百万Token 30美元,上下文窗口为100万Token,定价是GPT-5.4的两倍。对此,OpenAI在博客中解释称:"虽然GPT-5.5定价高于GPT-5.4,但其智能水平更高、Token效率也显著提升。在Codex中,我们对体验进行了精细调优,使GPT-5.5在大多数场景下以更少的Token实现更好的效果,同时在各订阅级别继续提供充足的使用额度。"
GPT-5.5 Pro的API定价为输入每百万Token 30美元、输出180美元,与GPT-5.4 Pro持平。
Q&A
Q1:GPT-5.5和GPT-5.5 Pro有什么区别?
A:GPT-5.5面向所有ChatGPT付费用户及Codex用户开放,而GPT-5.5 Pro仅限Pro、Business和Enterprise用户在ChatGPT中使用。性能上,GPT-5.5 Pro定位更高端,API定价也更贵(输入每百万Token 30美元,输出180美元),而标准版GPT-5.5 API定价为输入5美元、输出30美元。
Q2:GPT-5.5在编程方面比之前提升了多少?
A:GPT-5.5在编程能力上有明显提升。在Terminal-Bench 2.0测试中得分82.7%,优于Anthropic Opus 4.7的69.4%;在Codex中具备40万Token上下文窗口。OpenAI研究副总裁表示,模型已能完成"高级工程师级别"的代码整理工作,可将杂乱代码库重构为规范代码库。
Q3:GPT-5.5的API价格比GPT-5.4贵多少?
A:GPT-5.5 API定价是GPT-5.4的两倍,输入为每百万Token 5美元,输出为30美元,上下文窗口扩展至100万Token。OpenAI对此解释称,新模型在Token使用效率上更高,整体成本效益优于前代,实际使用成本不一定成比例增加。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。