OpenAI发布GPT-5.2挑战谷歌和Anthropic

OpenAI推出GPT-5.2模型，专为专业工作场景优化。新模型在创建电子表格、制作演示文稿、编写代码等方面表现更佳。GPT-5.2 Thinking版本在多项基准测试中超越前代产品，数学问题获得满分，事实性回答错误率降低30%。该发布被视为OpenAI对谷歌Gemini 3 Pro的"红色警报"回应，旨在重新夺回AI领域领先地位。

OpenAI对谷歌Gemini 3 Pro的"红色警报"回应终于到来。在公司宣布与迪士尼达成Sora授权协议的同一天，它发布了GPT-5.2。OpenAI将这个新模型宣传为迄今为止在现实世界专业应用中表现最佳的模型。"它在创建电子表格、构建演示文稿、编写代码、感知图像、理解长上下文、使用工具以及处理复杂的多步骤项目方面表现更好，"OpenAI表示。

在OpenAI突出展示的一系列10个基准测试中，GPT-5.2 Thinking作为该模型的最先进版本，超越了GPT-5.1，有时甚至是大幅超越。例如，在AIME 2025测试中（该测试包含30个具有挑战性的数学问题），该模型获得了100%的完美分数，超越了GPT-5.1已经达到的94%的先进水平。它在没有使用网络搜索等工具的情况下就实现了这一成绩。同时，在ARC-AGI-1基准测试中（该基准测试评估AI系统像人类一样进行抽象推理的能力），新系统比GPT-5.1的分数高出超过10个百分点。

OpenAI表示，GPT-5.2 Thinking在事实性回答问题方面表现更好，公司发现它产生错误的频率降低了30%。"对于专业人士来说，这意味着在使用该模型进行研究、写作、分析和决策支持时出现更少的错误——使该模型在日常知识工作中更加可靠，"公司表示。

新模型在对话方面也应该表现更好。对于大多数用户可能遇到的版本，OpenAI表示"GPT-5.2 Instant是日常工作和学习的快速、强大的主力工具，在信息搜索问题、操作指南和演练、技术写作和翻译方面有明显改进，建立在GPT-5.1 Instant引入的更温暖对话语调基础上。"

虽然说这是OpenAI生死存亡的发布可能言过其实，但公司确实在GPT-5.2上下了很大赌注。它在2025年的重大发布GPT-5没有达到预期。用户抱怨该系统生成令人意外的愚蠢答案，并且个性无趣。对GPT-5的失望使人们开始要求OpenAI恢复GPT-4o。

然后出现了Gemini 3 Pro——它跃升至LMArena排行榜榜首，LMArena是一个人类评判AI系统输出并投票选出最佳系统的网站。在谷歌宣布后，据报道山姆·奥特曼呼吁进行"红色警报"行动来改进ChatGPT。在今天之前，公司之前的模型GPT-5.1在LMArena排名第六，Anthropic和埃隆·马斯克的xAI系统占据了OpenAI和谷歌之间的位置。

对于一家最近签署了超过1.4万亿美元基础设施协议以试图在规模上超越竞争对手的公司来说，这对OpenAI来说不是一个好位置。在给员工的备忘录中，奥特曼表示GPT-5.2将与Gemini 3 Pro相媲美。随着新系统现在推出，我们将看到这是否属实，以及如果它无法至少匹配谷歌的最佳产品，这对公司意味着什么。

OpenAI提供三个不同版本的GPT-5.2：Instant、Thinking和Pro。所有三个模型将首先向公司付费计划的用户提供。值得注意的是，公司计划至少暂时保留GPT-5.1。付费用户可以在接下来的三个月内通过从传统模型部分选择来继续使用旧模型。

Q&A

Q1：GPT-5.2相比GPT-5.1有哪些主要改进？

A：GPT-5.2在专业工作方面表现更优，包括创建电子表格、构建演示文稿、编写代码、感知图像、理解长上下文、使用工具以及处理复杂的多步骤项目。在数学问题测试中获得100%完美分数，事实性回答错误率降低30%。

Q2：为什么OpenAI要紧急发布GPT-5.2？

A：主要是因为谷歌Gemini 3 Pro跃升至LMArena排行榜榜首，而GPT-5.1仅排第六。加上GPT-5发布后用户反馈不佳，奥特曼呼吁"红色警报"行动来改进ChatGPT，以应对来自谷歌和其他竞争对手的压力。

Q3：GPT-5.2有哪些版本可以使用？

A：OpenAI提供三个版本：Instant（快速版，适合日常工作和学习）、Thinking（思维版，最先进版本）和Pro（专业版）。所有版本首先向付费用户开放，付费用户还可在三个月内继续使用GPT-5.1。

来源：engadget

0赞

好文章，需要你的鼓励

OpenAI发布GPT-5.2挑战谷歌和Anthropic

来源：engadget

2025

12/12

08:23

分享

点赞

Bookshop.org确认今年将推出Kobo电子书阅读器支持

WeWard新增"步行模式"：走够步数才能解锁应用

X将通过私信通知用户其互动帖子被社区笔记纠错

"慢社交"应用Roost：让消息像真鸟一样飞行

Truecaller与印度电信监管机构就反垃圾电话规则展开公开交锋

Block与46州达成4500万美元和解，涉Cash App欺诈纠纷

欧盟威胁对Meta开出罚款，剑指Facebook和Instagram上瘾性设计

Disney+考虑推出免费流媒体内容层级

HyperTexting：将开放网络变成类社交媒体信息流的新应用

TV Time关闭之际，创始人打造新追剧应用Bingers

Telegram短链域名t.me因制裁合规问题短暂下线后已恢复

Apple芯片现不可修复漏洞，或成iPhone越狱突破口

Oracle预计OCI利润率将提升30-40%

A2A协议与AAIF基金会竞相制定AI智能体互通标准

AI语音技术助力创业者提升四倍工作效率

甲骨文AI投资支出激增致股价创24年最大跌幅

Oracle携手OpenAI构建企业级AI平台引发关注

Runway发布首个世界模型，为最新视频模型增加原生音频功能

研究人员利用300万天Apple Watch数据训练疾病检测AI

CoreWeave CEO 为 AI 循环交易辩护称其为"协作共赢"

IT领导者不可忽视的生成式AI价值实现五大趋势

AI安全监管亟待加强，头部科技公司评分不及格

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: