周二,OpenAI发布了GPT-5.4 mini和nano两个小型模型,专为智能体AI系统委托的任务而设计:代码库搜索、文件审查以及需要快速且经济的并行子任务。
这是OpenAI一段时间以来首次推出新的mini和nano模型。上一次发布是2025年的GPT-5 mini和nano。
特别有趣的是,在某些领域,使用mini模型与完整GPT-5.4之间的性能差异并不大,特别是在编码和计算机使用基准测试中,同时运行速度还快了两倍多。Nano是用于大容量工作的精简版本:分类、数据提取、排序和轻量级编码支持。两个模型都于周二发布。
GPT-5.4 mini在API、Codex和ChatGPT中可用。它具有400,000个Token的上下文窗口,可以接受文本和图像输入,输入Token成本为每百万个0.75美元,输出Token成本为每百万个4.50美元。
对于使用OpenAI的Codex智能体编码引擎的开发者,mini仅使用GPT-5.4配额的30%,这应该有助于开发者处理常规编码任务而不会耗尽配额。
OpenAI在GPT-5.4 nano上采用了不同的方法。它仅支持API,但以每百万输入Token 0.20美元和每百万输出Token 1.25美元的价格,是OpenAI目前最便宜的模型。
在SWE-bench Pro基准测试中,该测试评估模型在真实软件工程任务上的表现,mini得分54.38%,仅比完整的GPT-5.4低3个百分点。在衡量计算机使用能力的OSWorld-Verified测试中,mini得分72.13%,几乎匹配旗舰模型的75.03%(所有这些都是在"高"推理努力下运行的)。
Nano的表现显然不如前者,但在编码和工具调用任务上仍优于原始的GPT-5 mini,但在OSWorld-Verified上实际得分较低(39.01%对42%)。你绝对不希望nano模型为你浏览互联网。
OpenAI在这里突出的整体模式正在变得熟悉。在Codex中,GPT-5.4处理规划、协调和最终审查。Mini子智能体在底层并行运行,处理专注的任务:搜索代码库、审查大型文件、处理支持文档。在这些设置中,OpenAI在其公告中表示,最佳模型通常不是最大的模型,而是能够快速响应、可靠使用工具并在复杂专业任务上仍表现良好的模型。
Notion AI工程主管Abhisek Modi表示这种转变已经成为现实。"GPT-5.4 mini以令人印象深刻的精度处理专注、定义明确的任务。特别是在编辑页面方面,它在处理复杂格式化时匹配甚至超越了GPT-5.2,而计算成本只是其一小部分,"他说。"直到最近,只有最昂贵的模型才能可靠地导航智能体工具调用。今天,像GPT-5.4 mini和nano这样的小型模型可以轻松处理它,这将让我们的用户在Notion上构建自定义智能体时准确选择他们需要的智能程度。"
OpenAI的竞争对手在其小型模型上采取了类似的方法。Anthropic的Claude 4.5 Haiku专为轻量级智能体任务设计;Google的Gemini 3 Flash也适用于类似用例。
随着智能体承担更复杂的工作,大部分计算都交给了这些便宜的主力模型,而不是排行榜顶部的前沿模型。
Q&A
Q1:GPT-5.4 mini和nano模型有什么特点?
A:GPT-5.4 mini和nano是OpenAI专为智能体子任务设计的小型模型。Mini具有400,000个Token的上下文窗口,在编码和计算机使用基准测试中性能接近完整GPT-5.4,但运行速度快两倍多。Nano是精简版本,主要用于分类、数据提取等大容量工作,是OpenAI目前最便宜的模型。
Q2:这两个模型的定价如何?
A:GPT-5.4 mini的输入Token成本为每百万个0.75美元,输出Token成本为每百万个4.50美元。GPT-5.4 nano更便宜,输入Token成本为每百万个0.20美元,输出Token成本为每百万个1.25美元,是OpenAI目前最经济的选择。
Q3:为什么OpenAI要推出这些小型模型?
A:随着智能体AI系统的发展,需要处理大量并行子任务,如代码库搜索、文件审查等。这些任务需要快速、经济的模型来处理,而不是昂贵的大型模型。小型模型可以在保持良好性能的同时大幅降低成本,让智能体系统更实用。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。