AI中间层正在消失:OpenAI与DeepSeek的定价博弈

上周,OpenAI发布GPT-5.5,定价较上一代直接翻倍;DeepSeek同期推出V4-Pro与V4-Flash,价格仅为GPT-5.5的九分之一甚至更低。两家公司在同一周末走向截然相反的定价策略,导致AI模型市场从平滑的价格曲线演变为"高端闭源产品"与"低价开源基础设施"两极分化格局。原本处于中间地带的模型层正在被压缩,开发者在构建编程助手或推理管道时,必须重新考虑如何在两种经济模式之间进行路由选择。

上周,OpenAI和DeepSeek在24小时内对前沿AI的价值做出了截然相反的判断。前者认为AI是一个封闭产品,并且刚刚提高了价格;后者认为AI是开放基础设施,并且刚刚大幅降低了成本。市场两端的价格差距已达到近年来最大值,而大多数编程智能体此前所依赖的"舒适中间层"正在迅速萎缩。

价格曲线的断裂

在上周之前,开发者可以在一条相对平滑的性价比曲线上选择模型,分为高端、中端和低价三个层级,大多数工作负载都能在这条曲线上找到合适的位置。这条曲线依然存在,但已被拉伸变形——原本连续的梯度现在看起来更像是两个独立集群,中间存在明显断层。构建智能体、编程助手和高并发推理流水线的开发者,如今需要更认真地考虑该将任务路由到哪一端。

4月23日,OpenAI发布GPT-5.5,定价为每百万输入Token 5美元、每百万输出Token 30美元,恰好是GPT-5.4(2.5美元/15美元)的两倍。该模型采用100万Token上下文窗口,在Terminal-Bench 2.0上得分82.7%,高于GPT-5.4的75.1%。OpenAI认为提价被Token效率的提升所抵消,声称GPT-5.5完成同等Codex任务所需的Token更少,但公司未在发布页面公布精确的实际单任务成本。

4月24日,DeepSeek发布V4-Pro和V4-Flash。V4-Pro定价为每百万输入Token 1.74美元、输出Token 3.48美元,并提供有效期至2026年5月5日的发布折扣;V4-Flash定价为输入0.14美元、输出0.28美元。两款模型均采用MIT许可证,在Hugging Face上开放完整权重,默认支持100万Token上下文窗口。V4-Pro在SWE-bench上得分80.6%,与Claude Opus 4.6相差无几。

按标准定价,V4-Pro的输出Token成本约为GPT-5.5的九分之一,考虑到发布折扣后差距进一步扩大;V4-Flash则比V4-Pro再低一个数量级。

OpenAI的策略:销售结果,而非Token

GPT-5.5不仅仅是一个更智能的模型,它是一套完整技术栈的核心。Codex继承了这次升级,扩展了计算机使用、浏览器交互和更长的智能体运行能力。在API层面,开发者可获得与消费端相同的100万Token上下文窗口。

OpenAI的赌注在于:智能本身、服务栈、智能体框架和计算机使用能力是一个统一产品,而这个产品的价值是上一代每Token价格的两倍。Greg Brockman在发布简报中将其定位为一个能够执行一系列动作、使用工具、自我校验并持续推进直至任务完成的模型。目标客户是希望从单一供应商获得完整解决方案的企业,只需一个API密钥、一套安全审查、一条账单记录。OpenAI卖的不是Token,卖的是结果,结果的定价也随之提高。

这也解释了迭代节奏:GPT-5.4于3月初发布,GPT-5.5六周后随即跟进。这不是一场跑分竞赛,而是一种企业采购策略——足够快以维持在每个Q3预算讨论中的默认地位,定价足够高以支撑下一轮训练投入,同时不稀释高端定位。封闭产品本身就是护城河。

值得注意的是,OpenAI并未下架低价层级。GPT-5.4、GPT-5.4 mini和GPT-5.4 nano仍保留在价目表中,批处理、弹性、优先级及缓存输入等定价方案也依然存在。OpenAI产品目录的中端层依然健在,变化的是旗舰产品的位置——而旗舰产品恰恰是编程智能体和前沿工作负载的默认选择。

DeepSeek V4:低价的根源

V4并非一次价格战行为,其低价是三个不同决策的结果。

第一是架构。V4-Pro是一个混合专家模型,总参数量1.6万亿,每Token激活490亿。V4-Flash总参数2840亿,每Token激活130亿。DeepSeek的模型技术报告描述了一种混合注意力机制,结合压缩稀疏注意力与深度压缩注意力,旨在降低百万Token推理的浮点运算量和KV缓存开销,在激活少量权重的情况下实现接近前沿的基准测试表现。

第二是分发策略。MIT许可证是最宽松的开源许可证,任何人均可下载权重、托管、微调、嵌入产品并进行商业发布。V4-Flash以130亿激活参数运行在中型团队可负担的多GPU集群上。DeepSeek押注前沿智能将像Linux一样演变为基础设施,发布权重的实验室将赢得生态系统,而非运行时利润。

第三是硬件。同日,华为宣布其昇腾超节点完整支持V4推理。路透社报道称V4已针对华为最先进的昇腾AI芯片进行适配,华为表示其芯片参与了V4-Flash的部分训练。DeepSeek未披露V4-Pro是否沿用了早期V3和R1模型所使用的英伟达硬件。消息传出后,代工昇腾芯片的中芯国际在香港市场大涨10%,华虹半导体则上涨15%。

这释放出一个重要信号:高端开放权重推理,乃至至少一款模型的部分训练,已可适配昇腾架构。这并不等同于完全摆脱英伟达,但这是首次有前沿级别模型发布时让这一问题具有实质讨论意义。

一个重要提示:DeepSeek V4在发布时仅支持文本。DeepSeek表示多模态能力正在开发中,但目前尚不支持图像和视频输入。对于需要多模态推理的工作负载,V4目前还不是GPT-5.5或Opus 4.6的直接替代方案。

中间层的萎缩

上周之前,构建编程智能体的开发者有一个舒适的中端选择:GPT-5.4以2.5美元和15美元的价格处于甜蜜点——成本足够低可以规模化,能力足够强可以处理大多数智能体工作,且来自被广泛信任的供应商。这一层级仍在价目表上,但不再是旗舰,新旗舰的价格是它的两倍。

GPT-5.5占据了5美元和30美元的高端位置;V4-Pro以约为GPT-5.5输出价格九分之一的价格占据低端位置(折扣前);V4-Flash则再低一个数量级;Anthropic的Opus 4.7以约5美元输入和25美元输出的定价与GPT-5.5并列高端层,并未填补高端与开放权重之间的空白。

对开发者而言,选择不再是在平滑曲线上寻找合适的点,而是决定为不同任务路由到哪种经济模式:为集成产品付费,还是运行开放基础设施。由于价格差距已足够大,许多生产系统最终将在两端之间进行路由,路由逻辑的工程成本因此变得合理。

三个结构性变化

市场极化带来了三个具体变化。

第一,智能体框架将被迫变得更加模型无关。Cursor、Claude Code、OpenAI Codex以及开源框架OpenClaw和Hermes Agent,都将受益于根据任务复杂度在两种经济模式之间灵活调度的路由逻辑。一个在规划阶段使用GPT-5.5、在批量编辑阶段使用V4-Flash的编程智能体不再是异类,在价格差距如此悬殊的情况下,这将成为显而易见的架构选择。

第二,自托管的经济账两年来首次发生变化。V4-Flash以2840亿总参数和130亿激活参数,可在中型团队负担得起的多GPU配置上运行。代价是放弃超大规模云API的托管可靠性,换取可预测的推理成本和完全的模型控制权。对于Token量是核心约束且不需要多模态能力的工作负载,这一权衡比一周前更加清晰。

第三,"仅英伟达"的假设开始动摇。市场对V4的反应,不仅仅是关于DeepSeek本身,更源于一个认知:前沿级别的模型可以针对非英伟达芯片发布优化版本,中国AI基础设施在国产芯片上的运行能力比大多数观察者一年前预期的更为成熟。对开发者而言,这拓宽了长期可用推理平台的选择范围;对英伟达而言,这压缩了中国市场问题的应对时间窗口。

市场走向

成本前沿不再是一条平滑的曲线,而是两个经济集群之间存在明显断层,且这一断层在近期不会自行弥合。OpenAI将继续快速迭代并提高定价,因为集成产品是其护城河;DeepSeek将继续发布开放权重并持续降价,因为商品化基础设施的逻辑有赖于广泛采用。两者都可能在不同工作负载上取得成功,同一个智能体甚至可以在单个任务内同时路由至两端。

Anthropic的Claude Opus 4.7目前与OpenAI并列高端层,但未来90天将揭示是否有人会尝试守住正在萎缩的中间地带。DeepSeek背后的中国开放权重竞争者(Qwen、Kimi、GLM)将面临压力,需要跟上V4的定价和功能,否则将面临市场份额流失。而框架层即将成为整个技术栈中最值得关注的位置,因为跨越两种经济模式的路由逻辑已不再是可选项。

Q&A

Q1:GPT-5.5和GPT-5.4相比,价格和性能有什么变化?

A:GPT-5.5定价为每百万输入Token 5美元、输出Token 30美元,是GPT-5.4(2.5美元/15美元)的两倍。性能方面,GPT-5.5在Terminal-Bench 2.0上得分82.7%,高于GPT-5.4的75.1%。OpenAI声称该模型Token效率更高,完成同等任务所需Token更少,但未公布具体的单任务实际成本数据。

Q2:DeepSeek V4-Pro和V4-Flash有什么区别?

A:V4-Pro是一个总参数量1.6万亿、每Token激活490亿的混合专家模型,定价每百万输入Token 1.74美元、输出3.48美元,在SWE-bench上得分80.6%。V4-Flash规模更小,总参数2840亿、每Token激活130亿,定价仅为输入0.14美元、输出0.28美元,适合在多GPU集群上自托管运行。两款模型均采用MIT开源许可证,支持100万Token上下文窗口,但目前均仅支持文本输入,不支持图像和视频。

Q3:价格极化对开发者构建智能体有什么实际影响?

A:开发者过去可以在平滑的价格曲线上选择中端模型,现在这一舒适区正在消失。实际影响体现在三方面:智能体框架需要具备根据任务复杂度在高端模型和低价开放模型之间路由的能力;V4-Flash的出现让自托管推理的经济账变得更加合理;跨模型路由逻辑从可选变为必要,在单个任务内混用GPT-5.5和V4-Flash已成为显而易见的架构选择。

来源:The New Stack

0赞

好文章,需要你的鼓励

2026

05/08

12:36

分享

点赞

邮件订阅