OpenAI正式发布GPT-5.4模型,这是该公司最新版本的AI模型,据称在推理、编程以及涉及电子表格、文档和演示文稿的专业工作方面实现了重大突破。这也是OpenAI首个具备原生计算机使用能力的模型,能够代表用户操作计算机并跨不同应用程序完成任务。
新模型标志着AI公司正朝着智能体化未来迈进,在这个未来中,AI驱动的智能体网络将在后台运行,完成复杂的在线任务和软件操作。OpenAI在去年推出了ChatGPT智能体,这是众多智能体工具中的一个,可以控制你的计算机执行任务,比如搜索并购买烹饪食材。
虽然OpenAI正将GPT-5.4引入其API和AI驱动的编程工具Codex,但它同时推出了推理模型GPT-5.4 Thinking到ChatGPT中。OpenAI表示,GPT-5.4可以编写代码来操作计算机,并能够响应屏幕截图发出键盘和鼠标命令。GPT-5.4在使用网络浏览器方面也有所改进,在调用工具和API方面更加准确和高效。
该模型在处理需要从多个来源收集信息的问题方面表现更佳,OpenAI称该模型"可以更持久地进行多轮搜索,识别最相关的来源,特别是对于'大海捞针'类型的问题,并将它们综合成清晰、合理的答案。"OpenAI声称GPT-5.4是其"迄今为止最真实的模型",与GPT-5.2相比,个别声明的错误率降低了33%。
在ChatGPT中,GPT-5.4 Thinking将为复杂查询提供工作大纲,同时允许用户在响应过程中调整或更改他们的请求。"这使得引导模型达到您想要的确切结果变得更容易,无需重新开始或需要多次额外交互,"OpenAI表示。该功能现已在ChatGPT网页应用和Android版本中提供,但OpenAI表示iOS应用"即将推出"。
GPT-5.4正在ChatGPT、Codex和API中推出,GPT-5.4 Thinking模型将面向Plus、团队和专业用户推出。还有一个GPT-5.4 Pro模型专为"复杂任务的最大性能"而设计,正在API以及ChatGPT企业版和教育版中推出。
Q&A
Q1:GPT-5.4模型有什么新功能?
A:GPT-5.4是OpenAI首个具备原生计算机使用能力的模型,能够代表用户操作计算机并跨不同应用程序完成任务。它在推理、编程以及涉及电子表格、文档和演示文稿的专业工作方面实现了重大突破,还可以编写代码来操作计算机,发出键盘和鼠标命令。
Q2:GPT-5.4与之前的模型相比有哪些改进?
A:与GPT-5.2相比,GPT-5.4在准确性方面有显著提升,个别声明的错误率降低了33%。它在使用网络浏览器方面也有所改进,在调用工具和API方面更加准确和高效,能够更持久地进行多轮搜索,特别适合处理"大海捞针"类型的复杂问题。
Q3:如何使用GPT-5.4模型?
A:GPT-5.4正在ChatGPT、Codex和API中推出。GPT-5.4 Thinking模型面向ChatGPT的Plus、团队和专业用户开放。还有GPT-5.4 Pro模型专为复杂任务设计,在API以及ChatGPT企业版和教育版中提供。该功能现已在网页应用和Android版本中可用,iOS应用即将推出。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。