GPT在数学问题解决能力方面持续提升,越来越能够攻克最棘手的难题。
今年1月,AI测试公司Epoch AI发现,AI模型的前一个版本GPT-5.2 Pro已经解决了31%的数学挑战,相比之前19%的最佳成绩有了显著提升。
最新版本延续了这一进步趋势,成功应对了学者们设置的一系列数学问题。
根据Epoch AI博客文章,GPT-5.4更进一步:该博客提到,"GPT-5.4 Pro解决了一个此前没有任何模型能够解决的4级难题。在初步分析中,它似乎找到了一篇2011年的预印本,这让它绕过了大部分预期的工作量。问题作者并不知道这篇预印本的存在。"这里提到的预印本是指尚未经过同行评议的学术论文。
虽然"解决"了这个问题,但这也说明了GPT-5.4(实际上所有AI模型都是如此)本质上是精密的搜索引擎,其有效性取决于对信息的获取和快速整合能力。
GPT-5.4 Pro还提供了其他几项创新功能。OpenAI声称这是第一个能够在计算机上执行操作的版本,而不仅仅是说明如何操作。例如,GPT-5.4 Pro可以点击鼠标——更准确地说,它可以向智能体发出"点击鼠标"的命令。
该模型还具有改进的电子表格处理能力,能够使用更少的Token来解决问题,并且会在处理复杂任务前制定计划,让用户有机会调整结果并引导其朝正确方向发展。
Q&A
Q1:GPT-5.4 Pro在数学能力上有什么突破?
A:GPT-5.4 Pro解决了一个此前没有任何AI模型能够解决的4级数学难题。该模型找到了一篇2011年的预印本研究,利用其中的方法绕过了大部分预期的计算工作。相比之前版本31%的数学挑战解决率,最新版本继续保持进步趋势。
Q2:GPT-5.4 Pro除了数学能力外还有哪些新功能?
A:GPT-5.4 Pro是首个能在计算机上直接执行操作的版本,比如可以向智能体发出"点击鼠标"命令。它还具有改进的电子表格处理技能,能用更少Token解决问题,并会在处理复杂任务前先制定计划供用户调整。
Q3:GPT-5.4解决数学问题说明了什么?
A:这次解题过程说明GPT-5.4和所有AI模型本质上都是精密的搜索引擎,其有效性主要依赖于对信息的快速获取和整合能力。虽然"解决"了问题,但实际上是通过找到相关研究资料来实现的。
好文章,需要你的鼓励
大众汽车旗下ID. Polo与Cupra Raval已在西班牙马托雷尔工厂正式下线投产。两款车型起售价分别为24,995欧元和26,000欧元,均基于MEB+平台打造,搭载37kWh或52kWh电池组,续航里程最高可达454公里。这是大众"电动城市车家族"系列的首批产品,预计今年夏末秋初开始交付。大众集团通过跨品牌资源整合,实现约6亿欧元的成本节约,后续还将推出ID. Cross等新成员。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
三星宣布将于6月8日起为Samsung Health应用推出重磅功能更新,赶在Galaxy Watch 9传闻发布之前落地。新版本将引入多项AI驱动的生物特征分析功能,包括:综合心率、血氧、皮肤温度等数据的每日活力评分(Vitals)、结合体成分数据评估长期心脏健康的心脏健康评分、优化训练强度的每日有氧负荷追踪,以及横向对比用户群体的健身指数。此外,应用界面将重新划分为睡眠、营养、活动、正念和体征五大板块,并新增抗氧化指数、年龄指数和听力保护等个性化功能。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。