OpenAI近日正式推出新一代大语言模型GPT-5.5,该模型在数学解题与代码编写方面相较前代产品有显著提升。
GPT-5.5的发布时间恰好在竞争对手Anthropic推出其最新大语言模型一周之后。OpenAI为用户提供两种版本选择:标准版以及功能更强、定价更高的GPT-5.5 Pro版。
据OpenAI介绍,两个版本均在多个维度上实现了输出质量的提升。标准版GPT-5.5在计算机操作任务和知识工作方面优于上一代模型,而GPT-5.5 Pro则在商业、法律、教育和数据科学等应用场景中带来了尤为突出的质量提升。
GPT-5.5还增强了对模糊指令的理解能力。以往,大语言模型的用户往往需要逐步描述任务细节,否则容易产生输出错误。而GPT-5.5能够自动推断出相关细节,例如在用户未作说明的情况下,自行判断如何使用MCP服务器。
OpenAI将GPT-5.5与Anthropic上周发布的新款大语言模型Claude Opus 4.7进行了超过十项基准测试的横向对比,GPT-5.5的标准版和Pro版在其中多项测试中均取得了更优异的成绩。
在OpenAI测试集中难度最高的基准之一FrontierMath Tier 4上,该测试包含数十道博士后级别的数学难题,人类专家往往需要数天时间才能解答。GPT-5.5 Pro的得分为39.6%,接近Claude Opus 4.7所得22.9%的两倍。
OpenAI还表示,GPT-5.5的定制版本已协助研究人员发现了一个全新的数学证明——一组用于验证数学定理的方程式,该证明与"拉姆齐数"相关。拉姆齐数是组合数学领域的重要研究对象,在计算机科学中具有广泛的应用价值。
在编程能力方面,GPT-5.5同样领先于竞品。标准版大语言模型在Terminal-Bench 2.0基准测试中获得82.7%的高分,该测试衡量大语言模型使用命令行工具的能力,而Claude Opus 4.7的得分为69.4%。
OpenAI表示,GPT-5.5的编程能力已在内部得到实际应用,该模型协助优化了管理其运行基础设施的软件。该基础设施由英伟达的GB200和GB300 NVL72系统组成,分别搭载了英伟达Blackwell B200和Blackwell Ultra图形处理器。
由于GPU拥有远多于CPU的处理核心,OpenAI的基础设施管理软件会将发送至GPU的大语言模型请求批量打包,并分发至芯片的各个核心进行处理。据OpenAI介绍,GPT-5.5开发出了一种更高效的处理方式,使Token生成速度提升了20%以上。
此外,该模型在非技术类任务上同样表现出色。GPT-5.5在GDPval基准数据集上创下新纪录,该数据集用于测试大语言模型在44个领域完成经济价值任务的能力。值得关注的是,GPT-5.5标准版以84.9%的得分超越了Pro版以及Claude Opus 4.7。
目前,GPT-5.5已面向ChatGPT和Codex的Plus、Pro、Business及Enterprise订阅用户开放使用。GPT-5.5 Pro则仅在后三种订阅方案中通过ChatGPT提供。OpenAI表示,将"很快"通过应用程序编程接口向开发者开放该模型。
Q&A
Q1:GPT-5.5和GPT-5.5 Pro有什么区别?
A:GPT-5.5提供标准版和Pro版两种版本。标准版在计算机操作任务和知识工作方面表现更优,而Pro版则在商业、法律、教育和数据科学等场景中带来更大幅度的质量提升,但价格也更高。Pro版仅面向Pro、Business和Enterprise订阅用户开放。
Q2:GPT-5.5在数学方面的能力有多强?
A:GPT-5.5 Pro在FrontierMath Tier 4基准测试中得分39.6%,该测试包含数十道需要人类专家花费数天时间才能解答的博士后级别数学难题。这一成绩接近竞争对手Claude Opus 4.7所得22.9%的两倍。此外,GPT-5.5的定制版本还协助研究人员发现了与拉姆齐数相关的全新数学证明。
Q3:GPT-5.5如何提升了Token生成速度?
A:GPT-5.5协助优化了OpenAI管理GPU基础设施的软件。该软件负责将大语言模型请求批量分发至GPU的各个处理核心,GPT-5.5开发出了更高效的分发方式,最终使Token生成速度提升了20%以上。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。