OpenAI于周一发布了一款名为GPT-5.5 Instant的新基础模型,该模型将取代GPT-5.3 Instant,成为ChatGPT的默认模型。OpenAI表示,新模型在法律、医疗和金融等敏感领域显著减少了幻觉问题,同时保持了前代模型的低延迟特性。
上个月,OpenAI已发布GPT-5.5系列中的最新版本,并宣称其在编程和知识类任务方面有所提升。
在基准测试方面,GPT-5.5 Instant在AIME 2025数学测试中取得了81.2分,而旧版模型仅为65.4分。在MMMU-Pro多模态推理基准测试中,新模型同样表现更优,得分为76.0,旧版为69.2。
上下文管理能力是此次发布的重点之一。GPT-5.5 Instant可利用搜索工具回溯历史对话、文件及Gmail内容,从而提供更具个性化的回答。该功能目前已向网页端Plus和Pro用户开放,并计划近期推广至移动端。OpenAI表示,未来几周内将进一步向免费用户、Go Business用户及企业用户开放。
此次更新还引入了记忆来源显示功能,ChatGPT将在所有模型中展示回答内容的信息来源,方便用户了解答案的生成依据。用户可删除过时来源或纠正错误内容。值得注意的是,OpenAI明确表示,若用户与他人共享对话,对方将无法查看记忆来源信息。
对于开发者而言,GPT-5.5模型将通过API以"chat-latest"的形式提供,而GPT-5.3版本将作为付费用户的可选项,保留时间仅为三个月。
OpenAI在模型下线问题上曾多次遭遇用户反弹。此前,OpenAI将GPT-4o下线时,大量用户因对该模型产生情感依附而强烈抗议。GPT-4o频繁肯定用户的选择,让用户产生了深厚的情感连接,部分用户甚至联署请愿,称该模型是自己的"最好的朋友"或"一面镜子"。尽管如此,GPT-4o仍于2026年2月正式停用。
Q&A
Q1:GPT-5.5 Instant在哪些方面比GPT-5.3 Instant有所改进?
A:GPT-5.5 Instant在多个维度实现了提升:在AIME 2025数学测试中得分从65.4提升至81.2;在MMMU-Pro多模态推理基准中得分从69.2提升至76.0;同时在法律、医疗、金融等敏感领域减少了幻觉问题,并新增了基于历史对话、文件和Gmail内容的个性化回答能力。
Q2:GPT-5.5 Instant的记忆来源功能是怎么用的?
A:GPT-5.5 Instant会在回答时显示信息来源,包括历史对话、上传文件及Gmail等内容,用户可自行删除过时来源或纠正错误内容。共享对话时,接收方无法查看记忆来源,保护用户隐私。该功能目前向Plus和Pro用户开放,未来将扩展至免费及企业用户。
Q3:开发者如何通过API使用GPT-5.5模型?
A:开发者可通过API以"chat-latest"标识调用GPT-5.5模型。原有的GPT-5.3版本将作为付费用户的备选项,但仅保留三个月,之后将停止提供。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。