OpenAI集团今日发布了一款新的大语言模型,该公司表示这款模型在自动化工作任务方面比早期算法更加熟练。
GPT-5.4现已在ChatGPT、Codex编程工具和OpenAI的应用程序编程接口中提供。
该公司根据其大语言模型在生成提示响应时处理的Token数量向API用户收费。Token是由几个字母或字符组成的数据单位。OpenAI表示,GPT-5.4使用的Token比12月发布的GPT-5.2"显著"减少。减少模型的Token使用量可以降低推理计算成本。
OpenAI表示,其新模型还可以通过其他方式降低客户的推理费用。
基于OpenAI API构建的应用程序通常依赖外部程序或工具来完成任务。在此之前,开发者必须准备其应用程序使用的工具的详细列表,并将其包含在API请求中。工具列表可能会使API请求的大小增加数千个Token,从而推高推理成本。
GPT-5.4使这一工作流程更加高效。据OpenAI称,一个新的搜索引擎使模型能够自动找到应用程序执行给定任务所需的工具。这避免了上传详细工具列表的需要,从而减少了提示大小和推理成本。
新模型可以处理多达100万个Token的请求。与前代产品相比,该模型在处理包含图像的提示方面表现显著更好。开发者可以上传包含超过1000万像素的图像而无需压缩,这防止了潜在重要细节的丢失。
升级的视觉能力使GPT-5.4在计算机使用方面更加熟练,即通过用户界面与应用程序交互的任务。OpenAI使用名为OSWorld-Verified的流行计算机使用基准测试对该模型进行了评估。它以75%的分数创下行业记录,高于GPT-5.2的结果和人类测试者通常达到的72.4%。
该模型在其他领域也超越了前代产品。GPT-5.4在OpenAI创建的电子表格分析基准测试中获得了87.3%的平均分数,比GPT-5.2提高了8%以上。新模型在准备演示文稿、使用浏览器进行在线研究和回答科学问题方面也表现更佳。
GPT-5.4通过OpenAI的API提供,价格为每百万输入Token 2.5美元,每百万输出Token 12美元。有高级需求的用户可以访问模型的增强版本GPT-5.4 Pro,OpenAI表示该版本旨在为"复杂任务提供最大性能"。增强版本也与标准版本一起在ChatGPT中提供。
Q&A
Q1:GPT-5.4相比GPT-5.2有哪些主要改进?
A:GPT-5.4在多个方面都有显著改进:首先是Token使用量大幅减少,降低了推理计算成本;其次是视觉处理能力大幅提升,可以处理超过1000万像素的图像而无需压缩;第三是新增自动工具搜索功能,避免了手动上传详细工具列表的需要;最后在各项基准测试中表现更优,包括计算机使用、电子表格分析等任务。
Q2:GPT-5.4的定价策略是怎样的?
A:GPT-5.4通过OpenAI的API提供服务,标准版本的价格为每百万输入Token 2.5美元,每百万输出Token 12美元。对于有高级需求的用户,OpenAI还提供增强版本GPT-5.4 Pro,专为复杂任务设计以提供最大性能。该增强版本同时在ChatGPT和API中提供。
Q3:GPT-5.4在计算机使用能力方面表现如何?
A:GPT-5.4在计算机使用能力方面表现卓越,在OSWorld-Verified基准测试中获得75%的分数,创下行业新纪录。这一成绩不仅超越了前代GPT-5.2,还高于人类测试者通常达到的72.4%。这意味着GPT-5.4在通过用户界面与应用程序交互方面已经达到甚至超越了人类水平。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。