OpenAI正式发布GPT-5.4模型,这是该公司最新版本的AI模型,据称在推理、编程以及涉及电子表格、文档和演示文稿的专业工作方面实现了重大突破。这也是OpenAI首个具备原生计算机使用能力的模型,能够代表用户操作计算机并跨不同应用程序完成任务。
新模型标志着AI公司正朝着智能体化未来迈进,在这个未来中,AI驱动的智能体网络将在后台运行,完成复杂的在线任务和软件操作。OpenAI在去年推出了ChatGPT智能体,这是众多智能体工具中的一个,可以控制你的计算机执行任务,比如搜索并购买烹饪食材。
虽然OpenAI正将GPT-5.4引入其API和AI驱动的编程工具Codex,但它同时推出了推理模型GPT-5.4 Thinking到ChatGPT中。OpenAI表示,GPT-5.4可以编写代码来操作计算机,并能够响应屏幕截图发出键盘和鼠标命令。GPT-5.4在使用网络浏览器方面也有所改进,在调用工具和API方面更加准确和高效。
该模型在处理需要从多个来源收集信息的问题方面表现更佳,OpenAI称该模型"可以更持久地进行多轮搜索,识别最相关的来源,特别是对于'大海捞针'类型的问题,并将它们综合成清晰、合理的答案。"OpenAI声称GPT-5.4是其"迄今为止最真实的模型",与GPT-5.2相比,个别声明的错误率降低了33%。
在ChatGPT中,GPT-5.4 Thinking将为复杂查询提供工作大纲,同时允许用户在响应过程中调整或更改他们的请求。"这使得引导模型达到您想要的确切结果变得更容易,无需重新开始或需要多次额外交互,"OpenAI表示。该功能现已在ChatGPT网页应用和Android版本中提供,但OpenAI表示iOS应用"即将推出"。
GPT-5.4正在ChatGPT、Codex和API中推出,GPT-5.4 Thinking模型将面向Plus、团队和专业用户推出。还有一个GPT-5.4 Pro模型专为"复杂任务的最大性能"而设计,正在API以及ChatGPT企业版和教育版中推出。
Q&A
Q1:GPT-5.4模型有什么新功能?
A:GPT-5.4是OpenAI首个具备原生计算机使用能力的模型,能够代表用户操作计算机并跨不同应用程序完成任务。它在推理、编程以及涉及电子表格、文档和演示文稿的专业工作方面实现了重大突破,还可以编写代码来操作计算机,发出键盘和鼠标命令。
Q2:GPT-5.4与之前的模型相比有哪些改进?
A:与GPT-5.2相比,GPT-5.4在准确性方面有显著提升,个别声明的错误率降低了33%。它在使用网络浏览器方面也有所改进,在调用工具和API方面更加准确和高效,能够更持久地进行多轮搜索,特别适合处理"大海捞针"类型的复杂问题。
Q3:如何使用GPT-5.4模型?
A:GPT-5.4正在ChatGPT、Codex和API中推出。GPT-5.4 Thinking模型面向ChatGPT的Plus、团队和专业用户开放。还有GPT-5.4 Pro模型专为复杂任务设计,在API以及ChatGPT企业版和教育版中提供。该功能现已在网页应用和Android版本中可用,iOS应用即将推出。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。