OpenAI发布GPT-5.2与谷歌Gemini 3争夺AI模型霸主地位

OpenAI发布GPT-5.2，声称在完成现实商业任务方面较GPT-5.1有显著提升，达到"专家级"水平。新模型提供即时、思考和专业三个性能层级，在GDPval基准测试中，GPT-5.2在70.9%的测试中匹配或超越人类专家表现，远超GPT-5.1的38.8%。模型在代码调试、电子表格创建、演示文稿构建等方面均有改进。尽管API定价有所上涨，但OpenAI称其效率提升使总体成本更低。

OpenAI发布了GPT-5.2，声称与11月发布的GPT-5.1相比，新模型在完成现实世界商业任务的能力方面取得了"专家级"的重大提升。

新模型提供了Instant、Thinking和Pro三种性能等级，公司表示在各项基准测试中都有重大改进。

使用OpenAI的GDPval基准测试（该基准测试将模型完成44项不同商业任务的能力与人类专家的标准进行比较），GPT-5.2在70.9%的测试中达到或超过了人类用户的水平，而GPT-5.1在Instant（基础版）、Thinking（深度推理版）和Pro（研究级）版本中的综合表现仅为38.8%。

为了说明这些进步，OpenAI表示GPT-5.2 Thinking能够完全格式化劳动力规划电子表格，而在GPT-5.1上，等效输出能正确组装相同的电子表格，但格式化程度更基础，缺少格式化功能。

OpenAI表示："我们设计GPT-5.2是为了为用户创造更多经济价值；它在创建电子表格、制作演示文稿、编写代码、图像识别、理解长文本、使用工具以及处理复杂多步骤项目方面表现更佳。"

GPT-5.2还在其他重要基准测试中表现出不同程度的提升，包括ARC-AGI-1/ARC-AGI-2（通用问题解决）和SWE-Bench Pro/SWE-Bench Verified（现实世界软件任务）。

公司表示："对于日常专业使用，这意味着该模型能够更可靠地调试生产代码，实施功能请求，重构大型代码库，并以较少的人工干预端到端地交付修复。"

GPT-5.2已开始向ChatGPT用户推出，首先面向付费用户。订阅定价保持不变。对于API访问，GPT-5.2的定价为每百万输入Token 1.75美元，每百万输出Token 14美元，缓存输入享受90%折扣。尽管这比GPT-5.1更昂贵，但OpenAI声称该模型更高的效率意味着"由于GPT-5.2更高的Token效率，获得特定质量水平的成本实际上更便宜。"

对于OpenAI来说，新版本在上一版本之后如此快速的发布代表着其GPT-5模型开发的重要加速。12月初，CEO山姆·阿尔特曼向OpenAI员工发送了"红色警报"紧急备忘录，警告如果不快速开发GPT-5，公司有落后于谷歌日益强大的Gemini 3模型的风险。

此后，情况似乎已经稳定下来，阿尔特曼本周对CNBC表示，Gemini的进步没有最初担心的那么重大，红色警报状态将在1月结束。然而，网络公告中一个明显的遗漏是没有对GPT-5.2的性能与Gemini 3进行任何比较。据报道，单独的新闻发布会仅提供了有限的比较。

西门子首席AI分析师Maria Sukhareva对OpenAI对基准测试的使用提出了更普遍的质疑。她指出："它（GPT-5.2）声称击败了GDPVal，但这是OpenAI为OpenAI开发的基准测试。从技术上讲，OpenAI没有障碍可以针对这44个任务对其模型进行微调，而在其他方面完全失败。"

她认为："本质上，GPT-5.2报告的数字是毫无意义的，因为无法看到他们用什么数据训练模型。GPT-5.2受到与之前模型相同的所有问题的困扰。"Sukhareva对GPT-5.2基准测试的深入分析可以在她的Substack上找到。

电商平台Sell The Trend的CEO Rachid 'Rush' Wehbi在现实世界条件下测试了GPT-5.2。他说："GPT-5.2在保持思路连贯性方面做得更好，能够持续更长时间，当你投入一些分层上下文时不会崩溃。对于公司来说，这比在一些可能无关紧要的基准测试上取得微小改进要重要得多。"

"基准测试可以显示你取得了某种进步，但它们不能告诉你你的模型是否真的能在现实世界中站得住脚。GPT-5.2是一个进步，但企业AI仍然在发展过程中。"

据AI素养公司Human Voice Media创始人Bob Hutchins表示，"到目前为止，企业对AI的大部分挫败感来自最后20%——格式化、约束、交接。GPT-5.2在这方面显示了进步。"他对企业的建议是，"忽略发布噪音，进行有纪律的试用。GPT-5.2是有意义的一步。它没有缩小承诺与实践之间的差距，而是缩小了差距。"

例如，智能体AI公司Vectara的幻觉评估模型的基准测试发现，虽然GPT-5.2在这方面有所改进，但仍然落后于一些竞争对手。

Vectara开发者关系负责人Ofer Mendelevitch评论说："OpenAI在改善幻觉表现方面仍有一段路要走。GPT-5.2-low-thinking是迄今为止GPT系列中最好的，在我们的排行榜上排名第33位，幻觉率为8.4%。然而，ChatGPT 5.2明显落后于DeepSeek V3.2，后者排名第23位，幻觉率为6.3%。作为比较，Gemini 3在我们测试中的基础幻觉率为13.6%，Grok 4.1为17.8%。"

Q&A

Q1：GPT-5.2相比GPT-5.1有什么主要改进？

A：GPT-5.2在完成现实世界商业任务方面取得重大提升，在GDPval基准测试中70.9%的测试达到或超过人类专家水平，而GPT-5.1仅为38.8%。新模型在创建电子表格、制作演示文稿、编写代码、图像识别、理解长文本等方面表现更佳。

Q2：GPT-5.2的定价如何，是否比GPT-5.1贵？

A：GPT-5.2 API访问定价为每百万输入Token 1.75美元，每百万输出Token 14美元，比GPT-5.1更昂贵。但OpenAI声称由于新模型更高的Token效率，获得特定质量水平的实际成本更便宜。ChatGPT订阅价格保持不变。

Q3：业界专家如何评价GPT-5.2的实际表现？

A：专家意见不一。有人认为GPT-5.2在保持思路连贯性和处理分层上下文方面有实质改进，对企业更有价值。但也有专家质疑基准测试的有效性，认为模型仍存在幻觉等问题，企业AI仍在发展过程中。

来源：InfoWorld

0赞

好文章，需要你的鼓励

OpenAI发布GPT-5.2与谷歌Gemini 3争夺AI模型霸主地位

来源：InfoWorld

2025

12/30

14:00

分享

点赞

Waymo因洪水问题发布召回，近4000辆自动驾驶车辆受影响

AI驱动的"地面情报"系统：Samsara如何帮助城市主动修复坑洼路面

特斯拉Robotaxi披露两起远程操控事故

特斯拉FSD自动驾驶软件加速进军欧洲市场

Waymo暂停高速公路服务，因自动驾驶出租车难以应对施工区

Waymo自动驾驶车辆注册数量领跑德克萨斯，特斯拉远落后

Siri AI、ChatGPT、Claude真实横评，谁才是最强AI助手？

Uber年度遗失物报告揭示：数千件物品遗留在无人驾驶出租车中

Uber今年将部署500辆数据采集车辆，助力自动驾驶发展

Uber、Wayve与Waymo的伦敦无人驾驶出租车大战即将开启

Mobileye计划2027年在美国推出自动驾驶出租车服务

Waymo召回近4000辆无人出租车，原因是其进入高速公路施工区域

Meta收购Manus强化智能体AI能力

软银40亿美元收购AI基础设施投资商DigitalBridge

英伟达完成50亿美元英特尔股份收购交易

设备端AI革命：廉价快速安全的人工智能新时代

机器人咖啡杯？自动隔热垫？AI研究人员让它变成现实

AI行业2025年迎来现实检验

IBM收购Confluent 强化数据和自动化投资组合

谷歌推出代码进化智能体，助力企业降低云计算隐性成本

Nvidia押注开放基础设施迎接智能体AI时代的Nemotron 3模型家族

微软停用Visual Studio Code的IntelliCode AI代码补全扩展

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: