OpenAI对谷歌Gemini 3 Pro的"红色警报"回应终于到来。在公司宣布与迪士尼达成Sora授权协议的同一天,它发布了GPT-5.2。OpenAI将这个新模型宣传为迄今为止在现实世界专业应用中表现最佳的模型。"它在创建电子表格、构建演示文稿、编写代码、感知图像、理解长上下文、使用工具以及处理复杂的多步骤项目方面表现更好,"OpenAI表示。
在OpenAI突出展示的一系列10个基准测试中,GPT-5.2 Thinking作为该模型的最先进版本,超越了GPT-5.1,有时甚至是大幅超越。例如,在AIME 2025测试中(该测试包含30个具有挑战性的数学问题),该模型获得了100%的完美分数,超越了GPT-5.1已经达到的94%的先进水平。它在没有使用网络搜索等工具的情况下就实现了这一成绩。同时,在ARC-AGI-1基准测试中(该基准测试评估AI系统像人类一样进行抽象推理的能力),新系统比GPT-5.1的分数高出超过10个百分点。
OpenAI表示,GPT-5.2 Thinking在事实性回答问题方面表现更好,公司发现它产生错误的频率降低了30%。"对于专业人士来说,这意味着在使用该模型进行研究、写作、分析和决策支持时出现更少的错误——使该模型在日常知识工作中更加可靠,"公司表示。
新模型在对话方面也应该表现更好。对于大多数用户可能遇到的版本,OpenAI表示"GPT-5.2 Instant是日常工作和学习的快速、强大的主力工具,在信息搜索问题、操作指南和演练、技术写作和翻译方面有明显改进,建立在GPT-5.1 Instant引入的更温暖对话语调基础上。"
虽然说这是OpenAI生死存亡的发布可能言过其实,但公司确实在GPT-5.2上下了很大赌注。它在2025年的重大发布GPT-5没有达到预期。用户抱怨该系统生成令人意外的愚蠢答案,并且个性无趣。对GPT-5的失望使人们开始要求OpenAI恢复GPT-4o。
然后出现了Gemini 3 Pro——它跃升至LMArena排行榜榜首,LMArena是一个人类评判AI系统输出并投票选出最佳系统的网站。在谷歌宣布后,据报道山姆·奥特曼呼吁进行"红色警报"行动来改进ChatGPT。在今天之前,公司之前的模型GPT-5.1在LMArena排名第六,Anthropic和埃隆·马斯克的xAI系统占据了OpenAI和谷歌之间的位置。
对于一家最近签署了超过1.4万亿美元基础设施协议以试图在规模上超越竞争对手的公司来说,这对OpenAI来说不是一个好位置。在给员工的备忘录中,奥特曼表示GPT-5.2将与Gemini 3 Pro相媲美。随着新系统现在推出,我们将看到这是否属实,以及如果它无法至少匹配谷歌的最佳产品,这对公司意味着什么。
OpenAI提供三个不同版本的GPT-5.2:Instant、Thinking和Pro。所有三个模型将首先向公司付费计划的用户提供。值得注意的是,公司计划至少暂时保留GPT-5.1。付费用户可以在接下来的三个月内通过从传统模型部分选择来继续使用旧模型。
Q&A
Q1:GPT-5.2相比GPT-5.1有哪些主要改进?
A:GPT-5.2在专业工作方面表现更优,包括创建电子表格、构建演示文稿、编写代码、感知图像、理解长上下文、使用工具以及处理复杂的多步骤项目。在数学问题测试中获得100%完美分数,事实性回答错误率降低30%。
Q2:为什么OpenAI要紧急发布GPT-5.2?
A:主要是因为谷歌Gemini 3 Pro跃升至LMArena排行榜榜首,而GPT-5.1仅排第六。加上GPT-5发布后用户反馈不佳,奥特曼呼吁"红色警报"行动来改进ChatGPT,以应对来自谷歌和其他竞争对手的压力。
Q3:GPT-5.2有哪些版本可以使用?
A:OpenAI提供三个版本:Instant(快速版,适合日常工作和学习)、Thinking(思维版,最先进版本)和Pro(专业版)。所有版本首先向付费用户开放,付费用户还可在三个月内继续使用GPT-5.1。
好文章,需要你的鼓励
尽管全球企业AI投资在2024年达到2523亿美元,但MIT研究显示95%的企业仍未从生成式AI投资中获得回报。专家预测2026年将成为转折点,企业将从试点阶段转向实际部署。关键在于CEO精准识别高影响领域,推进AI代理技术应用,并加强员工AI能力培训。Forrester预测30%大型企业将实施强制AI培训,而Gartner预计到2028年15%日常工作决策将由AI自主完成。
这项由北京大学等机构联合完成的研究,开发了名为GraphLocator的智能软件问题诊断系统,通过构建代码依赖图和因果问题图,能够像医生诊断疾病一样精确定位软件问题的根源。在三个大型数据集的测试中,该系统比现有方法平均提高了19.49%的召回率和11.89%的精确率,特别在处理复杂的跨模块问题时表现优异,为软件维护效率的提升开辟了新路径。
2026年软件行业将迎来定价模式的根本性变革,从传统按席位收费转向基于结果的付费模式。AI正在重塑整个软件经济学,企业IT预算的12-15%已投入AI领域。这一转变要求建立明确的成功衡量指标,如Zendesk以"自动化解决方案"为标准。未来将出现更精简的工程团队,80%的工程师需要为AI驱动的角色提升技能,同时需要重新设计软件开发和部署流程以适应AI优先的工作流程。
这项由德国达姆施塔特工业大学领导的国际研究团队首次发现,当前最先进的专家混合模型AI系统存在严重安全漏洞。通过开发GateBreaker攻击框架,研究人员证明仅需关闭约3%的特定神经元,就能让AI的攻击成功率从7.4%暴增至64.9%。该研究揭示了专家混合模型安全机制过度集中的根本缺陷,为AI安全领域敲响了警钟。