周二,OpenAI发布了GPT-5.4 mini和nano两个小型模型,专为智能体AI系统委托的任务而设计:代码库搜索、文件审查以及需要快速且经济的并行子任务。
这是OpenAI一段时间以来首次推出新的mini和nano模型。上一次发布是2025年的GPT-5 mini和nano。
特别有趣的是,在某些领域,使用mini模型与完整GPT-5.4之间的性能差异并不大,特别是在编码和计算机使用基准测试中,同时运行速度还快了两倍多。Nano是用于大容量工作的精简版本:分类、数据提取、排序和轻量级编码支持。两个模型都于周二发布。
GPT-5.4 mini在API、Codex和ChatGPT中可用。它具有400,000个Token的上下文窗口,可以接受文本和图像输入,输入Token成本为每百万个0.75美元,输出Token成本为每百万个4.50美元。
对于使用OpenAI的Codex智能体编码引擎的开发者,mini仅使用GPT-5.4配额的30%,这应该有助于开发者处理常规编码任务而不会耗尽配额。
OpenAI在GPT-5.4 nano上采用了不同的方法。它仅支持API,但以每百万输入Token 0.20美元和每百万输出Token 1.25美元的价格,是OpenAI目前最便宜的模型。
在SWE-bench Pro基准测试中,该测试评估模型在真实软件工程任务上的表现,mini得分54.38%,仅比完整的GPT-5.4低3个百分点。在衡量计算机使用能力的OSWorld-Verified测试中,mini得分72.13%,几乎匹配旗舰模型的75.03%(所有这些都是在"高"推理努力下运行的)。
Nano的表现显然不如前者,但在编码和工具调用任务上仍优于原始的GPT-5 mini,但在OSWorld-Verified上实际得分较低(39.01%对42%)。你绝对不希望nano模型为你浏览互联网。
OpenAI在这里突出的整体模式正在变得熟悉。在Codex中,GPT-5.4处理规划、协调和最终审查。Mini子智能体在底层并行运行,处理专注的任务:搜索代码库、审查大型文件、处理支持文档。在这些设置中,OpenAI在其公告中表示,最佳模型通常不是最大的模型,而是能够快速响应、可靠使用工具并在复杂专业任务上仍表现良好的模型。
Notion AI工程主管Abhisek Modi表示这种转变已经成为现实。"GPT-5.4 mini以令人印象深刻的精度处理专注、定义明确的任务。特别是在编辑页面方面,它在处理复杂格式化时匹配甚至超越了GPT-5.2,而计算成本只是其一小部分,"他说。"直到最近,只有最昂贵的模型才能可靠地导航智能体工具调用。今天,像GPT-5.4 mini和nano这样的小型模型可以轻松处理它,这将让我们的用户在Notion上构建自定义智能体时准确选择他们需要的智能程度。"
OpenAI的竞争对手在其小型模型上采取了类似的方法。Anthropic的Claude 4.5 Haiku专为轻量级智能体任务设计;Google的Gemini 3 Flash也适用于类似用例。
随着智能体承担更复杂的工作,大部分计算都交给了这些便宜的主力模型,而不是排行榜顶部的前沿模型。
Q&A
Q1:GPT-5.4 mini和nano模型有什么特点?
A:GPT-5.4 mini和nano是OpenAI专为智能体子任务设计的小型模型。Mini具有400,000个Token的上下文窗口,在编码和计算机使用基准测试中性能接近完整GPT-5.4,但运行速度快两倍多。Nano是精简版本,主要用于分类、数据提取等大容量工作,是OpenAI目前最便宜的模型。
Q2:这两个模型的定价如何?
A:GPT-5.4 mini的输入Token成本为每百万个0.75美元,输出Token成本为每百万个4.50美元。GPT-5.4 nano更便宜,输入Token成本为每百万个0.20美元,输出Token成本为每百万个1.25美元,是OpenAI目前最经济的选择。
Q3:为什么OpenAI要推出这些小型模型?
A:随着智能体AI系统的发展,需要处理大量并行子任务,如代码库搜索、文件审查等。这些任务需要快速、经济的模型来处理,而不是昂贵的大型模型。小型模型可以在保持良好性能的同时大幅降低成本,让智能体系统更实用。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。