OpenAI发布GPT-5.2挑战谷歌和Anthropic

OpenAI推出GPT-5.2模型,专为专业工作场景优化。新模型在创建电子表格、制作演示文稿、编写代码等方面表现更佳。GPT-5.2 Thinking版本在多项基准测试中超越前代产品,数学问题获得满分,事实性回答错误率降低30%。该发布被视为OpenAI对谷歌Gemini 3 Pro的"红色警报"回应,旨在重新夺回AI领域领先地位。

OpenAI对谷歌Gemini 3 Pro的"红色警报"回应终于到来。在公司宣布与迪士尼达成Sora授权协议的同一天,它发布了GPT-5.2。OpenAI将这个新模型宣传为迄今为止在现实世界专业应用中表现最佳的模型。"它在创建电子表格、构建演示文稿、编写代码、感知图像、理解长上下文、使用工具以及处理复杂的多步骤项目方面表现更好,"OpenAI表示。

在OpenAI突出展示的一系列10个基准测试中,GPT-5.2 Thinking作为该模型的最先进版本,超越了GPT-5.1,有时甚至是大幅超越。例如,在AIME 2025测试中(该测试包含30个具有挑战性的数学问题),该模型获得了100%的完美分数,超越了GPT-5.1已经达到的94%的先进水平。它在没有使用网络搜索等工具的情况下就实现了这一成绩。同时,在ARC-AGI-1基准测试中(该基准测试评估AI系统像人类一样进行抽象推理的能力),新系统比GPT-5.1的分数高出超过10个百分点。

OpenAI表示,GPT-5.2 Thinking在事实性回答问题方面表现更好,公司发现它产生错误的频率降低了30%。"对于专业人士来说,这意味着在使用该模型进行研究、写作、分析和决策支持时出现更少的错误——使该模型在日常知识工作中更加可靠,"公司表示。

新模型在对话方面也应该表现更好。对于大多数用户可能遇到的版本,OpenAI表示"GPT-5.2 Instant是日常工作和学习的快速、强大的主力工具,在信息搜索问题、操作指南和演练、技术写作和翻译方面有明显改进,建立在GPT-5.1 Instant引入的更温暖对话语调基础上。"

虽然说这是OpenAI生死存亡的发布可能言过其实,但公司确实在GPT-5.2上下了很大赌注。它在2025年的重大发布GPT-5没有达到预期。用户抱怨该系统生成令人意外的愚蠢答案,并且个性无趣。对GPT-5的失望使人们开始要求OpenAI恢复GPT-4o。

然后出现了Gemini 3 Pro——它跃升至LMArena排行榜榜首,LMArena是一个人类评判AI系统输出并投票选出最佳系统的网站。在谷歌宣布后,据报道山姆·奥特曼呼吁进行"红色警报"行动来改进ChatGPT。在今天之前,公司之前的模型GPT-5.1在LMArena排名第六,Anthropic和埃隆·马斯克的xAI系统占据了OpenAI和谷歌之间的位置。

对于一家最近签署了超过1.4万亿美元基础设施协议以试图在规模上超越竞争对手的公司来说,这对OpenAI来说不是一个好位置。在给员工的备忘录中,奥特曼表示GPT-5.2将与Gemini 3 Pro相媲美。随着新系统现在推出,我们将看到这是否属实,以及如果它无法至少匹配谷歌的最佳产品,这对公司意味着什么。

OpenAI提供三个不同版本的GPT-5.2:Instant、Thinking和Pro。所有三个模型将首先向公司付费计划的用户提供。值得注意的是,公司计划至少暂时保留GPT-5.1。付费用户可以在接下来的三个月内通过从传统模型部分选择来继续使用旧模型。

Q&A

Q1:GPT-5.2相比GPT-5.1有哪些主要改进?

A:GPT-5.2在专业工作方面表现更优,包括创建电子表格、构建演示文稿、编写代码、感知图像、理解长上下文、使用工具以及处理复杂的多步骤项目。在数学问题测试中获得100%完美分数,事实性回答错误率降低30%。

Q2:为什么OpenAI要紧急发布GPT-5.2?

A:主要是因为谷歌Gemini 3 Pro跃升至LMArena排行榜榜首,而GPT-5.1仅排第六。加上GPT-5发布后用户反馈不佳,奥特曼呼吁"红色警报"行动来改进ChatGPT,以应对来自谷歌和其他竞争对手的压力。

Q3:GPT-5.2有哪些版本可以使用?

A:OpenAI提供三个版本:Instant(快速版,适合日常工作和学习)、Thinking(思维版,最先进版本)和Pro(专业版)。所有版本首先向付费用户开放,付费用户还可在三个月内继续使用GPT-5.1。

来源:engadget

0赞

好文章,需要你的鼓励

2025

12/12

08:23

分享

点赞

邮件订阅