AI模型迭代周期仍在持续推进。OpenAI近日正式发布了GPT-5.5与GPT-5.5 Pro,这也是目前其能力最强的模型。
GPT-5.5将面向所有ChatGPT付费用户及Codex用户开放,而GPT-5.5 Pro则仅向ChatGPT的Pro、Business和Enterprise用户推出。API版本预计即将上线,但定价也将高于以往。
就在Anthropic推出Opus 4.7一周后,OpenAI随即跟进。从目前已公布的基准测试结果来看,GPT-5.5和GPT-5.5 Pro在多项主流基准上均超越了Opus 4.7。不过,在部分测试中,GPT-5.4 Pro的表现仍优于默认版GPT-5.5。
在发布前的媒体沟通会上,OpenAI联合创始人兼总裁格雷格·布罗克曼将GPT-5.5定义为"新一类智能",并表示:"这是迈向更具智能体特性、更直觉化计算方式的重要一步。"
布罗克曼强调,新模型在处理模糊任务时表现尤为出色。"它用起来更加直觉化,能看懂一个定义不清的问题,并自主判断下一步该做什么。在我看来,它正在为我们未来使用电脑、处理计算任务的方式奠定基础——也就是大规模智能体计算的运作方式。"
尽管能力大幅提升,新模型的响应速度并不逊于前代,且使用的Token数量更少。布罗克曼表示:"与GPT-5.4相比,它思考更快、更敏锐,消耗的Token也更少,这意味着前沿AI对企业和消费者而言更加可及,这也是我们的目标之一。"
从技术层面看,GPT-5.5在单Token延迟上与前代持平,同时在Token使用效率上更优。OpenAI称,GPT-5.5能以"竞争性前沿编程模型一半的成本"实现顶尖智能水平。
编程能力提升
新模型在编程方面同样取得了显著进步。OpenAI研究副总裁米娅·格拉斯指出,模型在Codex中处理"高级工程师级别工作"的能力大幅增强。有内测用户将一份杂乱的振感代码库交给GPT-5.5,要求将其整理为"规范的代码库",结果模型的输出质量相当于一位高级工程师的水准。
在基准测试中,GPT-5.5在Terminal-Bench 2.0(测试命令行工作流处理能力)和SWE-Bench Pro(测试真实GitHub问题解决能力)上分别获得82.7%和58.6%的成绩。
目前尚无Anthropic Opus 4.7在SWE-Bench Pro上的对比数据,但Opus 4.7在该测试中达到64.3%,这是Opus仍领先的领域之一。而在Terminal-Bench 2.0上,GPT-5.5以82.7%领先于Opus 4.7的69.4%。
计算机操作能力
计算机操控能力也随此次更新进一步提升。OpenAI首席研究官陈马克表示:"结合Codex的计算机操控能力,我们真正感受到模型在处理计算机任务时,已具备与操控代码相似的灵活性与准确性。"
在OSWorld-Verified测试(要求模型在操作系统中执行实际计算机任务)中,GPT-5.5以78.7%的成绩略高于Opus 4.7的78%。
在学术基准测试方面,Opus以及谷歌较旧的Gemini 3.1 Pro仍有一定优势,但在数学类基准(如FrontierMath Tier 1-3和Tier 4)上,GPT-5.5超越了两者。
值得一提的是,OpenAI再次强调,本次模型的构建过程中使用了GPT-5.5本身及Codex参与开发。
不只是模型本身
布罗克曼还着重指出,对于OpenAI而言,模型本身已只是更大产品体系的一部分。
"我们希望将智能体能力带给所有希望通过电脑完成工作的人,而不仅限于软件工程师。大家需要理解,模型本身已不再是完整产品——它可以被看作大脑,但我们同样在打造'身体',也就是我们发布的应用、智能体框架,这些都是我们正在持续推进的方向。"
网络安全能力与风险管控
结合近期Anthropic Mythos模型在网络安全能力方面引发的讨论,OpenAI也对此次发布的安全防护措施作出说明。
OpenAI认为,针对具备高级网络安全能力的模型,最佳路径是"确保这些能力能够用于加速网络防御、强化整体生态系统"。公司表示将部署"业界领先的安全保障措施",并计划扩大访问范围以全面加速网络防御能力。
在CyberGym基准测试中,GPT-5.5获得81.8%,而Anthropic的Mythos得分为83.1%。
定价与访问权限
GPT-5.5面向所有ChatGPT付费用户及Codex用户开放,GPT-5.5 Pro仅限Pro、Business和Enterprise用户在ChatGPT中使用。此外,GPT-5.5思考模式(Thinking mode)也将向所有付费用户开放。
在Codex中,GPT-5.5将拥有40万Token的上下文窗口。OpenAI还为需要更高速度的用户提供了Fast模式,该模式速度提升1.5倍,但费用也随之增加2.5倍。
在API定价方面,GPT-5.5的输入价格为每百万Token 5美元,输出为每百万Token 30美元,上下文窗口为100万Token,定价是GPT-5.4的两倍。对此,OpenAI在博客中解释称:"虽然GPT-5.5定价高于GPT-5.4,但其智能水平更高、Token效率也显著提升。在Codex中,我们对体验进行了精细调优,使GPT-5.5在大多数场景下以更少的Token实现更好的效果,同时在各订阅级别继续提供充足的使用额度。"
GPT-5.5 Pro的API定价为输入每百万Token 30美元、输出180美元,与GPT-5.4 Pro持平。
Q&A
Q1:GPT-5.5和GPT-5.5 Pro有什么区别?
A:GPT-5.5面向所有ChatGPT付费用户及Codex用户开放,而GPT-5.5 Pro仅限Pro、Business和Enterprise用户在ChatGPT中使用。性能上,GPT-5.5 Pro定位更高端,API定价也更贵(输入每百万Token 30美元,输出180美元),而标准版GPT-5.5 API定价为输入5美元、输出30美元。
Q2:GPT-5.5在编程方面比之前提升了多少?
A:GPT-5.5在编程能力上有明显提升。在Terminal-Bench 2.0测试中得分82.7%,优于Anthropic Opus 4.7的69.4%;在Codex中具备40万Token上下文窗口。OpenAI研究副总裁表示,模型已能完成"高级工程师级别"的代码整理工作,可将杂乱代码库重构为规范代码库。
Q3:GPT-5.5的API价格比GPT-5.4贵多少?
A:GPT-5.5 API定价是GPT-5.4的两倍,输入为每百万Token 5美元,输出为30美元,上下文窗口扩展至100万Token。OpenAI对此解释称,新模型在Token使用效率上更高,整体成本效益优于前代,实际使用成本不一定成比例增加。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
腾讯等机构提出ViQ框架,通过两阶段渐进量化训练,让离散视觉编码在多模态理解和图像重建上同时追平连续特征编码器,训练速度最高提升70%。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港科技大学与华为联合提出LISA训练方法,通过让副网络对齐"似然分数",将ControlNet等图像生成模型的训练收敛速度提升逾2.78倍,同时改善图像质量与条件控制精度。