OpenAI对谷歌Gemini 3 Pro的"红色警报"回应终于到来。在公司宣布与迪士尼达成Sora授权协议的同一天,它发布了GPT-5.2。OpenAI将这个新模型宣传为迄今为止在现实世界专业应用中表现最佳的模型。"它在创建电子表格、构建演示文稿、编写代码、感知图像、理解长上下文、使用工具以及处理复杂的多步骤项目方面表现更好,"OpenAI表示。
在OpenAI突出展示的一系列10个基准测试中,GPT-5.2 Thinking作为该模型的最先进版本,超越了GPT-5.1,有时甚至是大幅超越。例如,在AIME 2025测试中(该测试包含30个具有挑战性的数学问题),该模型获得了100%的完美分数,超越了GPT-5.1已经达到的94%的先进水平。它在没有使用网络搜索等工具的情况下就实现了这一成绩。同时,在ARC-AGI-1基准测试中(该基准测试评估AI系统像人类一样进行抽象推理的能力),新系统比GPT-5.1的分数高出超过10个百分点。
OpenAI表示,GPT-5.2 Thinking在事实性回答问题方面表现更好,公司发现它产生错误的频率降低了30%。"对于专业人士来说,这意味着在使用该模型进行研究、写作、分析和决策支持时出现更少的错误——使该模型在日常知识工作中更加可靠,"公司表示。
新模型在对话方面也应该表现更好。对于大多数用户可能遇到的版本,OpenAI表示"GPT-5.2 Instant是日常工作和学习的快速、强大的主力工具,在信息搜索问题、操作指南和演练、技术写作和翻译方面有明显改进,建立在GPT-5.1 Instant引入的更温暖对话语调基础上。"
虽然说这是OpenAI生死存亡的发布可能言过其实,但公司确实在GPT-5.2上下了很大赌注。它在2025年的重大发布GPT-5没有达到预期。用户抱怨该系统生成令人意外的愚蠢答案,并且个性无趣。对GPT-5的失望使人们开始要求OpenAI恢复GPT-4o。
然后出现了Gemini 3 Pro——它跃升至LMArena排行榜榜首,LMArena是一个人类评判AI系统输出并投票选出最佳系统的网站。在谷歌宣布后,据报道山姆·奥特曼呼吁进行"红色警报"行动来改进ChatGPT。在今天之前,公司之前的模型GPT-5.1在LMArena排名第六,Anthropic和埃隆·马斯克的xAI系统占据了OpenAI和谷歌之间的位置。
对于一家最近签署了超过1.4万亿美元基础设施协议以试图在规模上超越竞争对手的公司来说,这对OpenAI来说不是一个好位置。在给员工的备忘录中,奥特曼表示GPT-5.2将与Gemini 3 Pro相媲美。随着新系统现在推出,我们将看到这是否属实,以及如果它无法至少匹配谷歌的最佳产品,这对公司意味着什么。
OpenAI提供三个不同版本的GPT-5.2:Instant、Thinking和Pro。所有三个模型将首先向公司付费计划的用户提供。值得注意的是,公司计划至少暂时保留GPT-5.1。付费用户可以在接下来的三个月内通过从传统模型部分选择来继续使用旧模型。
Q&A
Q1:GPT-5.2相比GPT-5.1有哪些主要改进?
A:GPT-5.2在专业工作方面表现更优,包括创建电子表格、构建演示文稿、编写代码、感知图像、理解长上下文、使用工具以及处理复杂的多步骤项目。在数学问题测试中获得100%完美分数,事实性回答错误率降低30%。
Q2:为什么OpenAI要紧急发布GPT-5.2?
A:主要是因为谷歌Gemini 3 Pro跃升至LMArena排行榜榜首,而GPT-5.1仅排第六。加上GPT-5发布后用户反馈不佳,奥特曼呼吁"红色警报"行动来改进ChatGPT,以应对来自谷歌和其他竞争对手的压力。
Q3:GPT-5.2有哪些版本可以使用?
A:OpenAI提供三个版本:Instant(快速版,适合日常工作和学习)、Thinking(思维版,最先进版本)和Pro(专业版)。所有版本首先向付费用户开放,付费用户还可在三个月内继续使用GPT-5.1。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。