GPT-5.5发布：开发者实测表现如何？

OpenAI发布GPT-5.5和GPT-5.5 Pro，主打编程与复杂任务能力提升。早期测试者反映，新模型"更能理解意图"、所需指引更少，在漏洞检测任务中错误率从40%大幅降至10%。不过，API访问尚未开放、价格约为上一代两倍，引发部分开发者观望。研究人员指出，AI能力边界仍参差不齐，但整体已显著扩展。

OpenAI在消费级聊天机器人市场凭借ChatGPT占据主导地位，但在开发者群体中，Anthropic的Claude模型及其Claude Code智能体已成为首选工具。

从更宏观的视角来看，两家公司的节奏几乎保持同步，在功能和模型发布上互相追赶。就在Anthropic上周发布Opus 4.7之后不久，其竞争对手也随即跟进。周四，OpenAI正式推出GPT-5.5和GPT-5.5 Pro，这是其最新的通用模型，在编程能力和复杂任务处理方面均有所提升。

OpenAI官方对此次发布的定位是"面向真实工作场景的新一代智能"，这一说法契合了AI公司普遍努力将模型定位为日常工作工具的趋势。

该公司还大量引用基准测试结果来支撑这一主张，在编程、推理和系统使用测试方面均有所提升。然而，基准分数并不总能反映模型在实际使用中的表现，有时甚至可以被刻意规避。

因此，一个更直接的问题摆在眼前：当开发者真正使用GPT-5.5时，它的表现究竟如何？

博主兼开源开发者Simon Willison获得了该模型的早期访问权限，他将其描述为"快速、高效且能力强劲"，但也很快发现了一个明显的局限：缺乏API访问权限，这意味着他无法立即运行自己惯常的测试。

其中一项测试是他长期坚持的"骑自行车的鹈鹕"基准测试——要求模型生成一只鹈鹕骑自行车的SVG图像，这是一个刻意设计的难题，用于测试模型处理结构化、不熟悉任务的能力。

为了绕过API访问限制，Willison利用一个半官方的Codex"后门"API自行构建了插件来运行测试。他发现该模型的默认输出在这项任务上逊于GPT-5.4，但当给予更多推理时间后表现有所改善——代价是Token消耗大幅增加，响应速度也明显变慢。

"我在GPT-5.4上见过更好的结果，所以我加上了'-o reasoning_effort xhigh'参数重新尝试，"Willison在初次测试GPT-5.5效果不佳后表示，"那次生成花了将近四分钟，但我认为结果好多了。"

简而言之，更好的结果是存在的，但可能需要以时间和算力为代价。

其他测试者则注意到该模型在自主性方面的提升。哈佛大学AI研究所研究员Soumitra Shukla在X平台上分享了他在Codex应用中使用GPT-5.5的体验，表示新模型"一点就通"，需要的引导"少得多"，处理较长任务时也更加流畅。

定价问题同样影响着早期用户的反应。Willison指出，GPT-5.5一旦开放API访问，价格将约为前代的两倍，而GPT-5.5 Pro的定价则更高，这意味着GPT-5.4作为低成本替代方案可能仍将拥有较长的生命周期。

这一性价比权衡，也与Willison遇到的访问限制问题并存。OpenAI解释称，API访问延迟是出于额外的安全要求，并表示GPT-5.5和GPT-5.5 Pro的API支持即将推出。不过，此次延迟开放的决定，也发生在外界对更强大模型部署方式——尤其是编程和网络安全领域——审视日益加剧的背景之下。

举例来说，Anthropic在今年4月初便以安全为由，宣布暂缓向更广泛用户开放其Mythos模型。

对OpenAI而言，其企业市场的推进也面临同样的问题。本周，该公司相继推出了工作区智能体和专注于个人信息保护的隐私过滤器等功能，并与包括英伟达在内的合作伙伴共同测试了GPT-5.5——英伟达表示已向逾万名员工提供了早期访问权限。

这些努力的成效，最终取决于该模型在安全敏感任务上的表现。

部分早期测试者表示，GPT-5.5在真实安全任务中已展现出强劲表现。前GitHub研究员、现任安全公司Xbow的AI负责人Albert Ziegler在一篇博客文章中写道，该公司使用内部基准测试对GPT-5.5进行了已知软件漏洞的评估。

测试结果显示，GPT-5.5将漏洞遗漏率降至10%，而GPT-5的遗漏率为40%，Anthropic Opus 4.6的遗漏率则为18%，这表明其在渗透测试任务中的表现实现了质的飞跃。

"每一个被遗漏的漏洞，都是现实中实实在在的安全隐患，"Ziegler写道。

他将这一结果形容为"面向所有人开放的Mythos级黑客能力"，暗指Anthropic那款访问受限的网络安全模型。然而，正如Hacker News社区部分用户所指出的，由于Mythos并未公开发布，这一比较难以令人信服。也有研究者发现，较小的开源权重模型在执行相同任务时，同样能够复现Anthropic自家Mythos示例中展示的大部分分析能力。

Mythos缺乏独立核验的问题同样引发了批评，部分人士认为，主张与可复现结果之间的落差，有损外界对这些系统呈现方式的信任。

无论如何，更宏观的结论可能依然成立：对好人有用的，对坏人同样有用。而就目前而言，API访问的缺失在一定程度上限制了这些能力被滥用的便利性。

对于Willison等获得早期访问权限的开发者来说，准确描述哪些方面有所改进并非易事。"和这些天通常的情况一样，很难用语言说清楚它好在哪里——我让它构建东西，它就能构建出我想要的！"Willison写道。

宾夕法尼亚大学沃顿商学院AI研究员、教授Ethan Mollick也有类似感受，他指出，随着模型曾经难以完成的许多任务如今变得轻而易举，"越来越难以快速展示每一代的变化"。

尽管如此，Mollick认为底层的进步依然举足轻重。

"我认为这是一件大事。它是大事，因为它表明AI的快速进步尚未终止，"Mollick在其Substack专栏"One Useful Thing"中写道，"它是大事，因为它确实很出色。它还是大事，因为即便如此，AI能力的前沿依然参差不齐。"

在他自己的测试中，Mollick让GPT-5.5 Pro构建一个港口小镇跨越数千年演变的"程序生成3D模拟"，并将结果与早期OpenAI模型及开源替代模型进行对比。只有GPT-5.5 Pro生成的版本能够真正模拟随时间推移的动态变化，而非简单地替换静态素材。

他还指出了AI三大主要层面的进步：模型本身、应用程序，以及将模型与工具和真实工作流程连接起来的"harness"系统。借助由GPT-5.5驱动的Codex，他得以分析多年的研究数据并起草一篇学术论文，产出的内容他形容为堪比早期博士阶段的研究水平。

"模型越来越聪明，应用越来越强大，harness系统也越来越完善，使其在解决实际问题上愈发高效，"Mollick写道。

然而，仔细审视会发现，AI能力的"参差不齐前沿"并未完全消失。尽管模型在编程等结构化领域的表现已相当出色——因为输出结果可以被验证和迭代——但在更开放或更具创意的任务上，模型依然力不从心。

在Mollick的测试中，GPT-5.5虽然能够胜任从模拟到撰写学术论文等复杂的多步骤工作，但这些进步并不均匀地延伸至所有任务，尤其是在需要持续连贯性或原创性的领域。

"GPT-5.5显然不是这一进程的终点，但它是一个值得关注的里程碑，"Mollick写道，"参差不齐的前沿依然存在，只是已经比以前推进了许多。"

Q&A

Q1：GPT-5.5相比上一代有哪些提升？

A：GPT-5.5在编程能力和复杂任务处理上有所提升，在安全漏洞检测方面表现尤为突出，漏洞遗漏率从GPT-5的40%降至10%。此外，该模型在执行较长任务时更加流畅，需要用户手动引导的情况也明显减少。不过，在开放性或创意性任务上，提升幅度并不均衡。

Q2：GPT-5.5的API为什么还没有开放？

A：OpenAI解释称，API访问延迟是出于额外的安全和保障要求，并表示相关支持即将推出。此次延迟也发生在外界对更强大模型——尤其是在编程和网络安全领域——部署方式审视日益加剧的背景之下。

Q3：GPT-5.5在网络安全方面的能力怎么样？

A：安全公司Xbow的测试显示，GPT-5.5将已知软件漏洞的遗漏率降至10%，远低于GPT-5的40%和Anthropic Opus 4.6的18%，渗透测试表现有显著提升。但部分研究者指出，相关对比（如与Anthropic Mythos模型的比较）难以独立核验，因为Mythos尚未公开发布。

来源：The New Stack

0赞

好文章，需要你的鼓励

GPT-5.5发布：开发者实测表现如何？

来源：The New Stack

2026

05/08

12:37

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

AI中间层正在消失：OpenAI与DeepSeek的定价博弈

苹果同意支付2.5亿美元，解决Siri"AI功能虚假宣传"集体诉讼

GitHub Copilot转向按量计费，AI编程成本压力推动定价模式变革

高管亲自"氛围编程"：厌倦等待IT排队，他们选择自己动手构建工具

Accenture与WaveMaker携手布局智能体AI，瞄准30亿美元软件市场缺口

谷歌将TPU产品线一分为二，迎接智能体时代

SUSE与英伟达联合推出面向主权企业工作负载的一站式AI工厂平台

SmartBear Swagger更新：专为解决AI编程工具引发的API偏移问题

OpenAI超级应用加速成形，Codex能力已远超编程本身

Google Gemini Mac版正式发布，告别浏览器切换烦恼

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会