OpenAI对谷歌Gemini 3 Pro的"红色警报"回应终于到来。在公司宣布与迪士尼达成Sora授权协议的同一天,它发布了GPT-5.2。OpenAI将这个新模型宣传为迄今为止在现实世界专业应用中表现最佳的模型。"它在创建电子表格、构建演示文稿、编写代码、感知图像、理解长上下文、使用工具以及处理复杂的多步骤项目方面表现更好,"OpenAI表示。
在OpenAI突出展示的一系列10个基准测试中,GPT-5.2 Thinking作为该模型的最先进版本,超越了GPT-5.1,有时甚至是大幅超越。例如,在AIME 2025测试中(该测试包含30个具有挑战性的数学问题),该模型获得了100%的完美分数,超越了GPT-5.1已经达到的94%的先进水平。它在没有使用网络搜索等工具的情况下就实现了这一成绩。同时,在ARC-AGI-1基准测试中(该基准测试评估AI系统像人类一样进行抽象推理的能力),新系统比GPT-5.1的分数高出超过10个百分点。
OpenAI表示,GPT-5.2 Thinking在事实性回答问题方面表现更好,公司发现它产生错误的频率降低了30%。"对于专业人士来说,这意味着在使用该模型进行研究、写作、分析和决策支持时出现更少的错误——使该模型在日常知识工作中更加可靠,"公司表示。
新模型在对话方面也应该表现更好。对于大多数用户可能遇到的版本,OpenAI表示"GPT-5.2 Instant是日常工作和学习的快速、强大的主力工具,在信息搜索问题、操作指南和演练、技术写作和翻译方面有明显改进,建立在GPT-5.1 Instant引入的更温暖对话语调基础上。"
虽然说这是OpenAI生死存亡的发布可能言过其实,但公司确实在GPT-5.2上下了很大赌注。它在2025年的重大发布GPT-5没有达到预期。用户抱怨该系统生成令人意外的愚蠢答案,并且个性无趣。对GPT-5的失望使人们开始要求OpenAI恢复GPT-4o。
然后出现了Gemini 3 Pro——它跃升至LMArena排行榜榜首,LMArena是一个人类评判AI系统输出并投票选出最佳系统的网站。在谷歌宣布后,据报道山姆·奥特曼呼吁进行"红色警报"行动来改进ChatGPT。在今天之前,公司之前的模型GPT-5.1在LMArena排名第六,Anthropic和埃隆·马斯克的xAI系统占据了OpenAI和谷歌之间的位置。
对于一家最近签署了超过1.4万亿美元基础设施协议以试图在规模上超越竞争对手的公司来说,这对OpenAI来说不是一个好位置。在给员工的备忘录中,奥特曼表示GPT-5.2将与Gemini 3 Pro相媲美。随着新系统现在推出,我们将看到这是否属实,以及如果它无法至少匹配谷歌的最佳产品,这对公司意味着什么。
OpenAI提供三个不同版本的GPT-5.2:Instant、Thinking和Pro。所有三个模型将首先向公司付费计划的用户提供。值得注意的是,公司计划至少暂时保留GPT-5.1。付费用户可以在接下来的三个月内通过从传统模型部分选择来继续使用旧模型。
Q&A
Q1:GPT-5.2相比GPT-5.1有哪些主要改进?
A:GPT-5.2在专业工作方面表现更优,包括创建电子表格、构建演示文稿、编写代码、感知图像、理解长上下文、使用工具以及处理复杂的多步骤项目。在数学问题测试中获得100%完美分数,事实性回答错误率降低30%。
Q2:为什么OpenAI要紧急发布GPT-5.2?
A:主要是因为谷歌Gemini 3 Pro跃升至LMArena排行榜榜首,而GPT-5.1仅排第六。加上GPT-5发布后用户反馈不佳,奥特曼呼吁"红色警报"行动来改进ChatGPT,以应对来自谷歌和其他竞争对手的压力。
Q3:GPT-5.2有哪些版本可以使用?
A:OpenAI提供三个版本:Instant(快速版,适合日常工作和学习)、Thinking(思维版,最先进版本)和Pro(专业版)。所有版本首先向付费用户开放,付费用户还可在三个月内继续使用GPT-5.1。
好文章,需要你的鼓励
研究人员基于Meta前首席AI科学家Yann LeCun提出的联合嵌入预测架构,开发了名为JETS的自监督时间序列基础模型。该模型能够处理不规则的可穿戴设备数据,通过学习预测缺失数据的含义而非数据本身,成功检测多种疾病。在高血压检测中AUROC达86.8%,心房扑动检测达70.5%。研究显示即使只有15%的参与者有标注医疗记录,该模型仍能有效利用85%的未标注数据进行训练,为利用不完整健康数据提供了新思路。
西湖大学等机构联合发布TwinFlow技术,通过创新的"双轨道"设计实现AI图像生成的革命性突破。该技术让原本需要40-100步的图像生成过程缩短到仅需1步,速度提升100倍且质量几乎无损。TwinFlow采用自我对抗机制,无需额外辅助模型,成功应用于200亿参数超大模型,在GenEval等标准测试中表现卓越,为实时AI图像生成应用开辟了广阔前景。
AI云基础设施提供商Coreweave今年经历了起伏。3月份IPO未达预期,10月收购Core Scientific计划因股东反对而搁浅。CEO Michael Intrator为公司表现辩护,称正在创建云计算新商业模式。面对股价波动和高负债质疑,他表示这是颠覆性创新的必然过程。公司从加密货币挖矿转型为AI基础设施提供商,与微软、OpenAI等巨头合作。对于AI行业循环投资批评,Intrator认为这是应对供需剧变的合作方式。
中山大学等机构联合开发的RealGen框架成功解决了AI生成图像的"塑料感"问题。该技术通过"探测器奖励"机制,让AI在躲避图像检测器识别的过程中学会制作更逼真照片。实验显示,RealGen在逼真度评测中大幅领先现有模型,在与真实照片对比中胜率接近50%,为AI图像生成技术带来重要突破。