OpenAI发布GPT-5.2与谷歌Gemini 3争夺AI模型霸主地位

OpenAI发布GPT-5.2,声称在完成现实商业任务方面较GPT-5.1有显著提升,达到"专家级"水平。新模型提供即时、思考和专业三个性能层级,在GDPval基准测试中,GPT-5.2在70.9%的测试中匹配或超越人类专家表现,远超GPT-5.1的38.8%。模型在代码调试、电子表格创建、演示文稿构建等方面均有改进。尽管API定价有所上涨,但OpenAI称其效率提升使总体成本更低。

OpenAI发布了GPT-5.2,声称与11月发布的GPT-5.1相比,新模型在完成现实世界商业任务的能力方面取得了"专家级"的重大提升。

新模型提供了Instant、Thinking和Pro三种性能等级,公司表示在各项基准测试中都有重大改进。

使用OpenAI的GDPval基准测试(该基准测试将模型完成44项不同商业任务的能力与人类专家的标准进行比较),GPT-5.2在70.9%的测试中达到或超过了人类用户的水平,而GPT-5.1在Instant(基础版)、Thinking(深度推理版)和Pro(研究级)版本中的综合表现仅为38.8%。

为了说明这些进步,OpenAI表示GPT-5.2 Thinking能够完全格式化劳动力规划电子表格,而在GPT-5.1上,等效输出能正确组装相同的电子表格,但格式化程度更基础,缺少格式化功能。

OpenAI表示:"我们设计GPT-5.2是为了为用户创造更多经济价值;它在创建电子表格、制作演示文稿、编写代码、图像识别、理解长文本、使用工具以及处理复杂多步骤项目方面表现更佳。"

GPT-5.2还在其他重要基准测试中表现出不同程度的提升,包括ARC-AGI-1/ARC-AGI-2(通用问题解决)和SWE-Bench Pro/SWE-Bench Verified(现实世界软件任务)。

公司表示:"对于日常专业使用,这意味着该模型能够更可靠地调试生产代码,实施功能请求,重构大型代码库,并以较少的人工干预端到端地交付修复。"

GPT-5.2已开始向ChatGPT用户推出,首先面向付费用户。订阅定价保持不变。对于API访问,GPT-5.2的定价为每百万输入Token 1.75美元,每百万输出Token 14美元,缓存输入享受90%折扣。尽管这比GPT-5.1更昂贵,但OpenAI声称该模型更高的效率意味着"由于GPT-5.2更高的Token效率,获得特定质量水平的成本实际上更便宜。"

对于OpenAI来说,新版本在上一版本之后如此快速的发布代表着其GPT-5模型开发的重要加速。12月初,CEO山姆·阿尔特曼向OpenAI员工发送了"红色警报"紧急备忘录,警告如果不快速开发GPT-5,公司有落后于谷歌日益强大的Gemini 3模型的风险。

此后,情况似乎已经稳定下来,阿尔特曼本周对CNBC表示,Gemini的进步没有最初担心的那么重大,红色警报状态将在1月结束。然而,网络公告中一个明显的遗漏是没有对GPT-5.2的性能与Gemini 3进行任何比较。据报道,单独的新闻发布会仅提供了有限的比较。

西门子首席AI分析师Maria Sukhareva对OpenAI对基准测试的使用提出了更普遍的质疑。她指出:"它(GPT-5.2)声称击败了GDPVal,但这是OpenAI为OpenAI开发的基准测试。从技术上讲,OpenAI没有障碍可以针对这44个任务对其模型进行微调,而在其他方面完全失败。"

她认为:"本质上,GPT-5.2报告的数字是毫无意义的,因为无法看到他们用什么数据训练模型。GPT-5.2受到与之前模型相同的所有问题的困扰。"Sukhareva对GPT-5.2基准测试的深入分析可以在她的Substack上找到。

电商平台Sell The Trend的CEO Rachid 'Rush' Wehbi在现实世界条件下测试了GPT-5.2。他说:"GPT-5.2在保持思路连贯性方面做得更好,能够持续更长时间,当你投入一些分层上下文时不会崩溃。对于公司来说,这比在一些可能无关紧要的基准测试上取得微小改进要重要得多。"

"基准测试可以显示你取得了某种进步,但它们不能告诉你你的模型是否真的能在现实世界中站得住脚。GPT-5.2是一个进步,但企业AI仍然在发展过程中。"

据AI素养公司Human Voice Media创始人Bob Hutchins表示,"到目前为止,企业对AI的大部分挫败感来自最后20%——格式化、约束、交接。GPT-5.2在这方面显示了进步。"他对企业的建议是,"忽略发布噪音,进行有纪律的试用。GPT-5.2是有意义的一步。它没有缩小承诺与实践之间的差距,而是缩小了差距。"

例如,智能体AI公司Vectara的幻觉评估模型的基准测试发现,虽然GPT-5.2在这方面有所改进,但仍然落后于一些竞争对手。

Vectara开发者关系负责人Ofer Mendelevitch评论说:"OpenAI在改善幻觉表现方面仍有一段路要走。GPT-5.2-low-thinking是迄今为止GPT系列中最好的,在我们的排行榜上排名第33位,幻觉率为8.4%。然而,ChatGPT 5.2明显落后于DeepSeek V3.2,后者排名第23位,幻觉率为6.3%。作为比较,Gemini 3在我们测试中的基础幻觉率为13.6%,Grok 4.1为17.8%。"

Q&A

Q1:GPT-5.2相比GPT-5.1有什么主要改进?

A:GPT-5.2在完成现实世界商业任务方面取得重大提升,在GDPval基准测试中70.9%的测试达到或超过人类专家水平,而GPT-5.1仅为38.8%。新模型在创建电子表格、制作演示文稿、编写代码、图像识别、理解长文本等方面表现更佳。

Q2:GPT-5.2的定价如何,是否比GPT-5.1贵?

A:GPT-5.2 API访问定价为每百万输入Token 1.75美元,每百万输出Token 14美元,比GPT-5.1更昂贵。但OpenAI声称由于新模型更高的Token效率,获得特定质量水平的实际成本更便宜。ChatGPT订阅价格保持不变。

Q3:业界专家如何评价GPT-5.2的实际表现?

A:专家意见不一。有人认为GPT-5.2在保持思路连贯性和处理分层上下文方面有实质改进,对企业更有价值。但也有专家质疑基准测试的有效性,认为模型仍存在幻觉等问题,企业AI仍在发展过程中。

来源:InfoWorld

0赞

好文章,需要你的鼓励

2025

12/30

14:00

分享

点赞

邮件订阅