Cursor公司周四发布了Composer 2,这是其第三代自研编程模型。该模型在一些关键编程基准测试中超越了Anthropic的Claude Opus 4.6,且成本仅为后者的一小部分。
新的Cursor模型成本极低,输入Token仅需0.5美元每百万,输出Token为2.5美元每百万。模型还提供快速模式作为默认选项,价格为标准模式的3倍,即输入/输出Token分别为1.5美元和7.5美元每百万,但智能程度相同。
相比之下,Claude Opus 4.6的价格为5美元/25美元每百万Token,OpenAI的GPT-5.4为2.5美元/15美元每百万Token。
在Terminal-Bench 2.0基准测试中,该测试用于衡量AI智能体在终端环境中处理真实软件工程任务的能力,Composer 2获得了61.7%的分数,超越了Anthropic的Claude Opus 4.6的58.0%。虽然仍落后于OpenAI GPT-5.4的75.1%,但这表明Cursor在加速自有模型项目的同时,正在迅速追赶竞争对手。
由于Cursor支持多模型,开发者可以选择运行哪个模型,或使用Cursor的自动模式,该模式会根据智能程度、速度和成本的权衡自动选择最佳模型。
快速迭代发展
Composer 2是自去年10月以来的第三次Composer发布。Cursor在2025年10月发布了原版Composer模型及其2.0平台重设计。今年2月推出了Composer 1.5,当时在Terminal-Bench 2.0上仍落后Opus 4.6约10%。
之前的Composer模型是在现有基础模型上应用强化学习,而不修改基础模型本身。Cursor指出,Composer 2是第一个进行连续预训练的版本,公司表示这提供了"更强大的基础来扩展我们的强化学习"。
自总结技术创新
这一新模型的关键技术创新是Cursor称为"自总结"的训练技术。"我们通过一个名为自总结的强化学习过程训练Composer处理长期任务。通过将自总结纳入Composer的训练中,我们可以从远超模型最大上下文窗口的轨迹中获得训练信号,"公司在公告中写道。
智能体编程往往会生成长的动作历史,很快就会超出模型的上下文窗口。传统上,像Cursor这样的公司要么创建模型先前工作的紧凑文本摘要,要么使用滑动上下文窗口,丢弃较旧的上下文以支持更近期的工作。
"这些压缩方法的共同缺点是可能导致模型忘记上下文中的关键信息,降低其在长期运行任务中的有效性,"Cursor认为。
Cursor的方法被团队称为循环压缩强化学习,将摘要功能直接构建到训练循环中。当生成达到Token长度触发器时,模型会暂停并将自己的上下文压缩到大约1000个Token,而传统方法通常需要5000个或更多Token。由于团队在训练模型时使用的强化学习奖励覆盖了整个链条,包括摘要步骤,模型学会了保留哪些细节,丢弃哪些内容。
根据Cursor的研究报告,自总结技术将压缩错误减少了50%。
Q&A
Q1:Cursor的Composer 2有什么特别之处?
A:Composer 2是Cursor的第三代自研编程模型,在Terminal-Bench 2.0基准测试中得分61.7%,超越了Claude Opus 4.6的58.0%,且成本仅为0.5美元每百万输入Token,远低于竞争对手。这是首个采用连续预训练的Composer版本。
Q2:什么是自总结技术?它如何改善编程效果?
A:自总结是Cursor开发的训练技术,通过循环压缩强化学习将摘要功能直接构建到训练循环中。当达到Token长度限制时,模型会自动压缩上下文到约1000个Token,学会保留关键信息并丢弃无关内容,将压缩错误减少了50%。
Q3:Composer 2的定价策略如何?与竞争对手相比有什么优势?
A:Composer 2提供两种模式:标准模式输入/输出Token分别为0.5美元和2.5美元每百万,快速模式为1.5美元和7.5美元每百万。相比Claude Opus 4.6的5美元/25美元和OpenAI GPT-5.4的2.5美元/15美元,具有明显的成本优势。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。