OpenAI刚刚在距离GPT-5.2发布不到三个月的时间里,又推出了GPT-5.4思维模型。这款被称为"处理复杂专业工作最有能力且高效的前沿模型"在测试中展现出了惊人的性能表现。
最令人震惊的是,根据OpenAI的测试数据,GPT-5.4在83%的情况下能够匹配或超越人类专业人士的工作表现。这一数字相比GPT-5.2的70.9%又有了显著提升。
性能大幅提升的背后
在整体性能方面,GPT-5.4相比GPT-5.2错误率降低了18%,在用户先前标记过事实错误的提示中,单个声明的虚假概率降低了33%。这意味着这个极其强大的人工智能在编造内容方面的频率进一步减少了。
GPT-5.4将通过API在周五提供,并将在ChatGPT付费版本和Codex中"逐步推出",这意味着大多数用户很快就能使用到这个新模型。
GPTval测试:衡量真实世界工作能力
为了评估AI模型在实际工作中的表现,OpenAI在9月引入了名为GPTval的新AI评估测试。这项测试专门用来衡量AI模型在"具有经济价值的真实世界任务"中的表现。
测试涵盖了9个行业和44个职业,这些行业的选择基于它们对美国国内生产总值贡献5%或以上的标准。每个行业都有独特的职业类别,测试选择了最多5个职业,这些职业的体力或手工工作占比不到40%,且在总工资和整体薪酬方面排名最高。
测试任务由各职业的资深专业人士设计,反映他们的日常工作内容。所有任务都经过多轮专家审查,最终形成每个行业的一系列经过充分审查的复杂任务。
例如,制造工程师的任务之一涉及设计夹具或固定装置,以简化地下采矿作业中电缆卷轴的收放操作。
每项测试的评分都由各职业的人类专业人士完成,评分者不知道结果是来自AI还是来自该领域的其他专业人士。此外,OpenAI还基于人类评分者的工作构建了自动评分系统,这样人类就不必花时间为AI模型的每次迭代评分。
令人担忧的快速进步
沃顿商学院生成式AI实验室副教授兼联合主任Ethan Mollick将GDPval测试描述为"可能是最具经济相关性的AI能力衡量标准"。
进步速度令人震惊。GPT-5.1在11月发布时GDPval得分为38.8%。仅仅一个月后的12月,GPT-5.2的性能爆炸式增长,几乎翻了一番,达到70.9%。
Mollick教授描述了GPT-5.2在GDPval上的重要表现:"在与人类专家的正面竞争中,在需要人类4-8小时完成的任务上,根据其他人类的判断,GPT-5.2有71%的时间获胜。"
现在,在3月初,距离GPT-5.2发布不到三个月,GPT-5.4在83%的时间里能够匹配或超越人类专业人士的表现!
这意味着几乎每次将同样的任务分别交给经验丰富的人类专业人士和GPT-5.4时,AI要么跟上了,要么超越了经验丰富的人类专业人士,至少根据评分者(可能是人类或AI)的判断是这样的。
对未来工作的影响
这种表现水平可能将我们引向两个方向。一方面,它可以帮助增强人类专业人士的能力,让有经验的人能够更快地完成更多工作。另一方面,它很可能被视为AI在高价值、高技能工作中取代人类的预兆。
Walleye Capital人工智能解决方案负责人Daniel Swiecki表示:"在我们最严格的内部金融和Excel评估中,GPT-5.4超越了之前的模型,准确性提高了30个百分点。这种可靠性的显著提升大大扩展了我们对基本面投资者模型更新和情景分析的自动化程度。"
未来可能不会完全是其中一种情况。但即使OpenAI为其最新发布的产品庆祝胜利,我们这些依靠在这些专业领域终身技能建设来养家糊口的人也必须退后一步,深深地担忧地呼吸,并希望获得最好的结果。
除了整体性能外,GPT-5.4在其他核心能力方面也有所改进。随着这项技术的不断发展,我们都需要学会适应和利用这些工具,无论是作为增强我们能力的助手,还是作为我们需要与之竞争的对手。
Q&A
Q1:GPT-5.4相比之前版本有什么重大改进?
A:GPT-5.4在专业工作测试中83%的情况下能匹配或超越人类专业人士,相比GPT-5.2的70.9%有显著提升。错误率降低了18%,虚假声明概率降低了33%。它被称为"处理复杂专业工作最有能力且高效的前沿模型"。
Q2:GPTval测试是如何评估AI能力的?
A:GPTval是OpenAI开发的测试,涵盖9个行业44个职业,专门衡量AI在"具有经济价值的真实世界任务"中的表现。测试任务由各职业资深专业人士设计,反映日常工作内容,评分由人类专业人士完成,评分者不知道结果来源是AI还是人类。
Q3:GPT-5.4对职场工作者意味着什么?
A:GPT-5.4的高性能表现可能带来两种结果:一是作为增强工具帮助专业人士提高效率,二是在某些高价值、高技能工作中取代人类。这要求工作者积极学习和适应AI技术,将其作为提升个人生产力的工具。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。