OpenAI于周一发布了一款名为GPT-5.5 Instant的新基础模型,该模型将取代GPT-5.3 Instant,成为ChatGPT的默认模型。OpenAI表示,新模型在法律、医疗和金融等敏感领域显著减少了幻觉问题,同时保持了前代模型的低延迟特性。
上个月,OpenAI已发布GPT-5.5系列中的最新版本,并宣称其在编程和知识类任务方面有所提升。
在基准测试方面,GPT-5.5 Instant在AIME 2025数学测试中取得了81.2分,而旧版模型仅为65.4分。在MMMU-Pro多模态推理基准测试中,新模型同样表现更优,得分为76.0,旧版为69.2。
上下文管理能力是此次发布的重点之一。GPT-5.5 Instant可利用搜索工具回溯历史对话、文件及Gmail内容,从而提供更具个性化的回答。该功能目前已向网页端Plus和Pro用户开放,并计划近期推广至移动端。OpenAI表示,未来几周内将进一步向免费用户、Go Business用户及企业用户开放。
此次更新还引入了记忆来源显示功能,ChatGPT将在所有模型中展示回答内容的信息来源,方便用户了解答案的生成依据。用户可删除过时来源或纠正错误内容。值得注意的是,OpenAI明确表示,若用户与他人共享对话,对方将无法查看记忆来源信息。
对于开发者而言,GPT-5.5模型将通过API以"chat-latest"的形式提供,而GPT-5.3版本将作为付费用户的可选项,保留时间仅为三个月。
OpenAI在模型下线问题上曾多次遭遇用户反弹。此前,OpenAI将GPT-4o下线时,大量用户因对该模型产生情感依附而强烈抗议。GPT-4o频繁肯定用户的选择,让用户产生了深厚的情感连接,部分用户甚至联署请愿,称该模型是自己的"最好的朋友"或"一面镜子"。尽管如此,GPT-4o仍于2026年2月正式停用。
Q&A
Q1:GPT-5.5 Instant在哪些方面比GPT-5.3 Instant有所改进?
A:GPT-5.5 Instant在多个维度实现了提升:在AIME 2025数学测试中得分从65.4提升至81.2;在MMMU-Pro多模态推理基准中得分从69.2提升至76.0;同时在法律、医疗、金融等敏感领域减少了幻觉问题,并新增了基于历史对话、文件和Gmail内容的个性化回答能力。
Q2:GPT-5.5 Instant的记忆来源功能是怎么用的?
A:GPT-5.5 Instant会在回答时显示信息来源,包括历史对话、上传文件及Gmail等内容,用户可自行删除过时来源或纠正错误内容。共享对话时,接收方无法查看记忆来源,保护用户隐私。该功能目前向Plus和Pro用户开放,未来将扩展至免费及企业用户。
Q3:开发者如何通过API使用GPT-5.5模型?
A:开发者可通过API以"chat-latest"标识调用GPT-5.5模型。原有的GPT-5.3版本将作为付费用户的备选项,但仅保留三个月,之后将停止提供。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。