OpenAI对谷歌Gemini 3 Pro的"红色警报"回应终于到来。在公司宣布与迪士尼达成Sora授权协议的同一天,它发布了GPT-5.2。OpenAI将这个新模型宣传为迄今为止在现实世界专业应用中表现最佳的模型。"它在创建电子表格、构建演示文稿、编写代码、感知图像、理解长上下文、使用工具以及处理复杂的多步骤项目方面表现更好,"OpenAI表示。
在OpenAI突出展示的一系列10个基准测试中,GPT-5.2 Thinking作为该模型的最先进版本,超越了GPT-5.1,有时甚至是大幅超越。例如,在AIME 2025测试中(该测试包含30个具有挑战性的数学问题),该模型获得了100%的完美分数,超越了GPT-5.1已经达到的94%的先进水平。它在没有使用网络搜索等工具的情况下就实现了这一成绩。同时,在ARC-AGI-1基准测试中(该基准测试评估AI系统像人类一样进行抽象推理的能力),新系统比GPT-5.1的分数高出超过10个百分点。
OpenAI表示,GPT-5.2 Thinking在事实性回答问题方面表现更好,公司发现它产生错误的频率降低了30%。"对于专业人士来说,这意味着在使用该模型进行研究、写作、分析和决策支持时出现更少的错误——使该模型在日常知识工作中更加可靠,"公司表示。
新模型在对话方面也应该表现更好。对于大多数用户可能遇到的版本,OpenAI表示"GPT-5.2 Instant是日常工作和学习的快速、强大的主力工具,在信息搜索问题、操作指南和演练、技术写作和翻译方面有明显改进,建立在GPT-5.1 Instant引入的更温暖对话语调基础上。"
虽然说这是OpenAI生死存亡的发布可能言过其实,但公司确实在GPT-5.2上下了很大赌注。它在2025年的重大发布GPT-5没有达到预期。用户抱怨该系统生成令人意外的愚蠢答案,并且个性无趣。对GPT-5的失望使人们开始要求OpenAI恢复GPT-4o。
然后出现了Gemini 3 Pro——它跃升至LMArena排行榜榜首,LMArena是一个人类评判AI系统输出并投票选出最佳系统的网站。在谷歌宣布后,据报道山姆·奥特曼呼吁进行"红色警报"行动来改进ChatGPT。在今天之前,公司之前的模型GPT-5.1在LMArena排名第六,Anthropic和埃隆·马斯克的xAI系统占据了OpenAI和谷歌之间的位置。
对于一家最近签署了超过1.4万亿美元基础设施协议以试图在规模上超越竞争对手的公司来说,这对OpenAI来说不是一个好位置。在给员工的备忘录中,奥特曼表示GPT-5.2将与Gemini 3 Pro相媲美。随着新系统现在推出,我们将看到这是否属实,以及如果它无法至少匹配谷歌的最佳产品,这对公司意味着什么。
OpenAI提供三个不同版本的GPT-5.2:Instant、Thinking和Pro。所有三个模型将首先向公司付费计划的用户提供。值得注意的是,公司计划至少暂时保留GPT-5.1。付费用户可以在接下来的三个月内通过从传统模型部分选择来继续使用旧模型。
Q&A
Q1:GPT-5.2相比GPT-5.1有哪些主要改进?
A:GPT-5.2在专业工作方面表现更优,包括创建电子表格、构建演示文稿、编写代码、感知图像、理解长上下文、使用工具以及处理复杂的多步骤项目。在数学问题测试中获得100%完美分数,事实性回答错误率降低30%。
Q2:为什么OpenAI要紧急发布GPT-5.2?
A:主要是因为谷歌Gemini 3 Pro跃升至LMArena排行榜榜首,而GPT-5.1仅排第六。加上GPT-5发布后用户反馈不佳,奥特曼呼吁"红色警报"行动来改进ChatGPT,以应对来自谷歌和其他竞争对手的压力。
Q3:GPT-5.2有哪些版本可以使用?
A:OpenAI提供三个版本:Instant(快速版,适合日常工作和学习)、Thinking(思维版,最先进版本)和Pro(专业版)。所有版本首先向付费用户开放,付费用户还可在三个月内继续使用GPT-5.1。
好文章,需要你的鼓励
芬兰阿尔托大学研究团队开发出革命性光学计算方法,利用单束光线实现复杂张量运算。该技术将数字信息编码到光波的振幅和相位中,通过光波相互作用自动完成深度学习所需的矩阵和张量乘法运算。与传统GPU逐步处理不同,光学系统可同时并行执行所有计算操作,运算速度达到光速级别。研究显示该方法具有被动处理、低功耗等优势,预计3-5年内可集成到现有硬件平台,为AI计算带来重大突破。
新加坡科技设计大学研究团队发现,通过控制大型语言模型的"思考语言"可显著提升输出多样性。研究显示,AI用非英语语言思考时能产生更多样化的答案,且距离英语越远的语言效果越好。混合多种语言思考的策略表现最佳,不仅提升创意输出,还增强了文化多元化表达能力,为解决AI输出同质化问题提供了简单有效的方案。
科学家成功将传统公里级粒子加速器缩小至房间大小,并实现商业化。TAU Systems公司开发的激光驱动尾场加速器利用超强激光脉冲产生等离子体,将电子加速至相对论速度。该设备首先用于航天电子设备的辐射测试,能量范围60-100兆电子伏特,成本约1000万美元起。未来还可应用于医疗成像、芯片检测和X射线光刻等领域,有望大幅降低粒子加速器的使用门槛。
浙江大学研究团队开发了PhyRPR三阶段视频生成系统,解决AI视频中物理规律违背问题。该方法将物理理解与视觉生成分离处理:首先用大型语言模型进行物理推理和关键帧生成,然后规划连续运动轨迹,最后通过运动感知技术精化视觉效果。实验证明该方法在物理一致性和视觉质量方面均优于现有技术。