OpenAI在消费级聊天机器人市场凭借ChatGPT占据主导地位,但在开发者群体中,Anthropic的Claude模型及其Claude Code智能体已成为首选工具。
从更宏观的视角来看,两家公司的节奏几乎保持同步,在功能和模型发布上互相追赶。就在Anthropic上周发布Opus 4.7之后不久,其竞争对手也随即跟进。周四,OpenAI正式推出GPT-5.5和GPT-5.5 Pro,这是其最新的通用模型,在编程能力和复杂任务处理方面均有所提升。
OpenAI官方对此次发布的定位是"面向真实工作场景的新一代智能",这一说法契合了AI公司普遍努力将模型定位为日常工作工具的趋势。
该公司还大量引用基准测试结果来支撑这一主张,在编程、推理和系统使用测试方面均有所提升。然而,基准分数并不总能反映模型在实际使用中的表现,有时甚至可以被刻意规避。
因此,一个更直接的问题摆在眼前:当开发者真正使用GPT-5.5时,它的表现究竟如何?
博主兼开源开发者Simon Willison获得了该模型的早期访问权限,他将其描述为"快速、高效且能力强劲",但也很快发现了一个明显的局限:缺乏API访问权限,这意味着他无法立即运行自己惯常的测试。
其中一项测试是他长期坚持的"骑自行车的鹈鹕"基准测试——要求模型生成一只鹈鹕骑自行车的SVG图像,这是一个刻意设计的难题,用于测试模型处理结构化、不熟悉任务的能力。
为了绕过API访问限制,Willison利用一个半官方的Codex"后门"API自行构建了插件来运行测试。他发现该模型的默认输出在这项任务上逊于GPT-5.4,但当给予更多推理时间后表现有所改善——代价是Token消耗大幅增加,响应速度也明显变慢。
"我在GPT-5.4上见过更好的结果,所以我加上了'-o reasoning_effort xhigh'参数重新尝试,"Willison在初次测试GPT-5.5效果不佳后表示,"那次生成花了将近四分钟,但我认为结果好多了。"
简而言之,更好的结果是存在的,但可能需要以时间和算力为代价。
其他测试者则注意到该模型在自主性方面的提升。哈佛大学AI研究所研究员Soumitra Shukla在X平台上分享了他在Codex应用中使用GPT-5.5的体验,表示新模型"一点就通",需要的引导"少得多",处理较长任务时也更加流畅。
定价问题同样影响着早期用户的反应。Willison指出,GPT-5.5一旦开放API访问,价格将约为前代的两倍,而GPT-5.5 Pro的定价则更高,这意味着GPT-5.4作为低成本替代方案可能仍将拥有较长的生命周期。
这一性价比权衡,也与Willison遇到的访问限制问题并存。OpenAI解释称,API访问延迟是出于额外的安全要求,并表示GPT-5.5和GPT-5.5 Pro的API支持即将推出。不过,此次延迟开放的决定,也发生在外界对更强大模型部署方式——尤其是编程和网络安全领域——审视日益加剧的背景之下。
举例来说,Anthropic在今年4月初便以安全为由,宣布暂缓向更广泛用户开放其Mythos模型。
对OpenAI而言,其企业市场的推进也面临同样的问题。本周,该公司相继推出了工作区智能体和专注于个人信息保护的隐私过滤器等功能,并与包括英伟达在内的合作伙伴共同测试了GPT-5.5——英伟达表示已向逾万名员工提供了早期访问权限。
这些努力的成效,最终取决于该模型在安全敏感任务上的表现。
部分早期测试者表示,GPT-5.5在真实安全任务中已展现出强劲表现。前GitHub研究员、现任安全公司Xbow的AI负责人Albert Ziegler在一篇博客文章中写道,该公司使用内部基准测试对GPT-5.5进行了已知软件漏洞的评估。
测试结果显示,GPT-5.5将漏洞遗漏率降至10%,而GPT-5的遗漏率为40%,Anthropic Opus 4.6的遗漏率则为18%,这表明其在渗透测试任务中的表现实现了质的飞跃。
"每一个被遗漏的漏洞,都是现实中实实在在的安全隐患,"Ziegler写道。
他将这一结果形容为"面向所有人开放的Mythos级黑客能力",暗指Anthropic那款访问受限的网络安全模型。然而,正如Hacker News社区部分用户所指出的,由于Mythos并未公开发布,这一比较难以令人信服。也有研究者发现,较小的开源权重模型在执行相同任务时,同样能够复现Anthropic自家Mythos示例中展示的大部分分析能力。
Mythos缺乏独立核验的问题同样引发了批评,部分人士认为,主张与可复现结果之间的落差,有损外界对这些系统呈现方式的信任。
无论如何,更宏观的结论可能依然成立:对好人有用的,对坏人同样有用。而就目前而言,API访问的缺失在一定程度上限制了这些能力被滥用的便利性。
对于Willison等获得早期访问权限的开发者来说,准确描述哪些方面有所改进并非易事。"和这些天通常的情况一样,很难用语言说清楚它好在哪里——我让它构建东西,它就能构建出我想要的!"Willison写道。
宾夕法尼亚大学沃顿商学院AI研究员、教授Ethan Mollick也有类似感受,他指出,随着模型曾经难以完成的许多任务如今变得轻而易举,"越来越难以快速展示每一代的变化"。
尽管如此,Mollick认为底层的进步依然举足轻重。
"我认为这是一件大事。它是大事,因为它表明AI的快速进步尚未终止,"Mollick在其Substack专栏"One Useful Thing"中写道,"它是大事,因为它确实很出色。它还是大事,因为即便如此,AI能力的前沿依然参差不齐。"
在他自己的测试中,Mollick让GPT-5.5 Pro构建一个港口小镇跨越数千年演变的"程序生成3D模拟",并将结果与早期OpenAI模型及开源替代模型进行对比。只有GPT-5.5 Pro生成的版本能够真正模拟随时间推移的动态变化,而非简单地替换静态素材。
他还指出了AI三大主要层面的进步:模型本身、应用程序,以及将模型与工具和真实工作流程连接起来的"harness"系统。借助由GPT-5.5驱动的Codex,他得以分析多年的研究数据并起草一篇学术论文,产出的内容他形容为堪比早期博士阶段的研究水平。
"模型越来越聪明,应用越来越强大,harness系统也越来越完善,使其在解决实际问题上愈发高效,"Mollick写道。
然而,仔细审视会发现,AI能力的"参差不齐前沿"并未完全消失。尽管模型在编程等结构化领域的表现已相当出色——因为输出结果可以被验证和迭代——但在更开放或更具创意的任务上,模型依然力不从心。
在Mollick的测试中,GPT-5.5虽然能够胜任从模拟到撰写学术论文等复杂的多步骤工作,但这些进步并不均匀地延伸至所有任务,尤其是在需要持续连贯性或原创性的领域。
"GPT-5.5显然不是这一进程的终点,但它是一个值得关注的里程碑,"Mollick写道,"参差不齐的前沿依然存在,只是已经比以前推进了许多。"
Q&A
Q1:GPT-5.5相比上一代有哪些提升?
A:GPT-5.5在编程能力和复杂任务处理上有所提升,在安全漏洞检测方面表现尤为突出,漏洞遗漏率从GPT-5的40%降至10%。此外,该模型在执行较长任务时更加流畅,需要用户手动引导的情况也明显减少。不过,在开放性或创意性任务上,提升幅度并不均衡。
Q2:GPT-5.5的API为什么还没有开放?
A:OpenAI解释称,API访问延迟是出于额外的安全和保障要求,并表示相关支持即将推出。此次延迟也发生在外界对更强大模型——尤其是在编程和网络安全领域——部署方式审视日益加剧的背景之下。
Q3:GPT-5.5在网络安全方面的能力怎么样?
A:安全公司Xbow的测试显示,GPT-5.5将已知软件漏洞的遗漏率降至10%,远低于GPT-5的40%和Anthropic Opus 4.6的18%,渗透测试表现有显著提升。但部分研究者指出,相关对比(如与Anthropic Mythos模型的比较)难以独立核验,因为Mythos尚未公开发布。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。