OpenAI最新GPT-5.4在专业工作测试中83%胜过人类

OpenAI发布GPT-5.4思维模型，在专业任务测试中表现卓越，83%的情况下能匹配或超越人类专业人士。该模型错误率比GPT-5.2降低18%，虚假声明减少33%。测试覆盖九个行业44种职业，包括制造、金融、法律等高价值岗位。新模型将在ChatGPT付费版本和API中推出，引发对AI替代人工的担忧。

OpenAI刚刚在距离GPT-5.2发布不到三个月的时间里，又推出了GPT-5.4思维模型。这款被称为"处理复杂专业工作最有能力且高效的前沿模型"在测试中展现出了惊人的性能表现。

最令人震惊的是，根据OpenAI的测试数据，GPT-5.4在83%的情况下能够匹配或超越人类专业人士的工作表现。这一数字相比GPT-5.2的70.9%又有了显著提升。

性能大幅提升的背后

在整体性能方面，GPT-5.4相比GPT-5.2错误率降低了18%，在用户先前标记过事实错误的提示中，单个声明的虚假概率降低了33%。这意味着这个极其强大的人工智能在编造内容方面的频率进一步减少了。

GPT-5.4将通过API在周五提供，并将在ChatGPT付费版本和Codex中"逐步推出"，这意味着大多数用户很快就能使用到这个新模型。

GPTval测试：衡量真实世界工作能力

为了评估AI模型在实际工作中的表现，OpenAI在9月引入了名为GPTval的新AI评估测试。这项测试专门用来衡量AI模型在"具有经济价值的真实世界任务"中的表现。

测试涵盖了9个行业和44个职业，这些行业的选择基于它们对美国国内生产总值贡献5%或以上的标准。每个行业都有独特的职业类别，测试选择了最多5个职业，这些职业的体力或手工工作占比不到40%，且在总工资和整体薪酬方面排名最高。

测试任务由各职业的资深专业人士设计，反映他们的日常工作内容。所有任务都经过多轮专家审查，最终形成每个行业的一系列经过充分审查的复杂任务。

例如，制造工程师的任务之一涉及设计夹具或固定装置，以简化地下采矿作业中电缆卷轴的收放操作。

每项测试的评分都由各职业的人类专业人士完成，评分者不知道结果是来自AI还是来自该领域的其他专业人士。此外，OpenAI还基于人类评分者的工作构建了自动评分系统，这样人类就不必花时间为AI模型的每次迭代评分。

令人担忧的快速进步

沃顿商学院生成式AI实验室副教授兼联合主任Ethan Mollick将GDPval测试描述为"可能是最具经济相关性的AI能力衡量标准"。

进步速度令人震惊。GPT-5.1在11月发布时GDPval得分为38.8%。仅仅一个月后的12月，GPT-5.2的性能爆炸式增长，几乎翻了一番，达到70.9%。

Mollick教授描述了GPT-5.2在GDPval上的重要表现："在与人类专家的正面竞争中，在需要人类4-8小时完成的任务上，根据其他人类的判断，GPT-5.2有71%的时间获胜。"

现在，在3月初，距离GPT-5.2发布不到三个月，GPT-5.4在83%的时间里能够匹配或超越人类专业人士的表现！

这意味着几乎每次将同样的任务分别交给经验丰富的人类专业人士和GPT-5.4时，AI要么跟上了，要么超越了经验丰富的人类专业人士，至少根据评分者（可能是人类或AI）的判断是这样的。

对未来工作的影响

这种表现水平可能将我们引向两个方向。一方面，它可以帮助增强人类专业人士的能力，让有经验的人能够更快地完成更多工作。另一方面，它很可能被视为AI在高价值、高技能工作中取代人类的预兆。

Walleye Capital人工智能解决方案负责人Daniel Swiecki表示："在我们最严格的内部金融和Excel评估中，GPT-5.4超越了之前的模型，准确性提高了30个百分点。这种可靠性的显著提升大大扩展了我们对基本面投资者模型更新和情景分析的自动化程度。"

未来可能不会完全是其中一种情况。但即使OpenAI为其最新发布的产品庆祝胜利，我们这些依靠在这些专业领域终身技能建设来养家糊口的人也必须退后一步，深深地担忧地呼吸，并希望获得最好的结果。

除了整体性能外，GPT-5.4在其他核心能力方面也有所改进。随着这项技术的不断发展，我们都需要学会适应和利用这些工具，无论是作为增强我们能力的助手，还是作为我们需要与之竞争的对手。

Q&A

Q1：GPT-5.4相比之前版本有什么重大改进？

A：GPT-5.4在专业工作测试中83%的情况下能匹配或超越人类专业人士，相比GPT-5.2的70.9%有显著提升。错误率降低了18%，虚假声明概率降低了33%。它被称为"处理复杂专业工作最有能力且高效的前沿模型"。

Q2：GPTval测试是如何评估AI能力的？

A：GPTval是OpenAI开发的测试，涵盖9个行业44个职业，专门衡量AI在"具有经济价值的真实世界任务"中的表现。测试任务由各职业资深专业人士设计，反映日常工作内容，评分由人类专业人士完成，评分者不知道结果来源是AI还是人类。

Q3：GPT-5.4对职场工作者意味着什么？

A：GPT-5.4的高性能表现可能带来两种结果：一是作为增强工具帮助专业人士提高效率，二是在某些高价值、高技能工作中取代人类。这要求工作者积极学习和适应AI技术，将其作为提升个人生产力的工具。

来源：ZDNET

0赞

好文章，需要你的鼓励

OpenAI最新GPT-5.4在专业工作测试中83%胜过人类

来源：ZDNET

2026

03/09

10:15

分享

点赞

WAIC 2026主论坛（下午场）重磅揭晓！

AI评测初创公司Braintrust遭入侵，敦促所有客户轮换API密钥

牙科诊所软件漏洞修复：患者医疗记录曾遭泄露

关键基础设施巨头Itron确认遭遇网络攻击

Vercel数据泄露范围扩大，黑客早于已知时间节点已入侵

苹果与博通签署300亿美元协议，共同生产美国本土无线芯片

摩托罗拉领投BRINC 1.25亿美元，推动紧急救援无人机大规模扩张

AI赋能芯片设计：前景广阔，疑问犹存

Arm今夏将推出自研芯片，Meta成首批客户

Cellebrite携手SkySafe，打造无人机数字取证一体化平台

人类意识研究者：对AI可能有意识的说法持怀疑态度

帮助AI模型走向现实世界的企业预测决策技术

扩展智能体AI意味着信任数据——多数CDO正在投资的方向

为AI时代重新思考存储架构

电信行业AI野心受阻：专有无线网络成为突破关键

Meta计划开发自定义芯片训练AI模型

苹果音乐推出AI歌曲和视觉内容可选标识标签

OpenAI发布GPT-5.4大语言模型，增强计算机视觉和工具使用能力

AI重写软件代码引发许可证争议 开源生态面临颠覆性挑战

OpenAI发布GPT-5.4模型，朝自主智能体迈出重要一步

DiligenceSquared利用AI语音智能体降低并购研究成本

谷歌API密钥安全漏洞暴露Gemini AI私人数据

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

AI重写软件代码引发许可证争议开源生态面临颠覆性挑战