Cursor公司周四发布了Composer 2,这是其第三代自研编程模型。该模型在一些关键编程基准测试中超越了Anthropic的Claude Opus 4.6,且成本仅为后者的一小部分。
新的Cursor模型成本极低,输入Token仅需0.5美元每百万,输出Token为2.5美元每百万。模型还提供快速模式作为默认选项,价格为标准模式的3倍,即输入/输出Token分别为1.5美元和7.5美元每百万,但智能程度相同。
相比之下,Claude Opus 4.6的价格为5美元/25美元每百万Token,OpenAI的GPT-5.4为2.5美元/15美元每百万Token。
在Terminal-Bench 2.0基准测试中,该测试用于衡量AI智能体在终端环境中处理真实软件工程任务的能力,Composer 2获得了61.7%的分数,超越了Anthropic的Claude Opus 4.6的58.0%。虽然仍落后于OpenAI GPT-5.4的75.1%,但这表明Cursor在加速自有模型项目的同时,正在迅速追赶竞争对手。
由于Cursor支持多模型,开发者可以选择运行哪个模型,或使用Cursor的自动模式,该模式会根据智能程度、速度和成本的权衡自动选择最佳模型。
快速迭代发展
Composer 2是自去年10月以来的第三次Composer发布。Cursor在2025年10月发布了原版Composer模型及其2.0平台重设计。今年2月推出了Composer 1.5,当时在Terminal-Bench 2.0上仍落后Opus 4.6约10%。
之前的Composer模型是在现有基础模型上应用强化学习,而不修改基础模型本身。Cursor指出,Composer 2是第一个进行连续预训练的版本,公司表示这提供了"更强大的基础来扩展我们的强化学习"。
自总结技术创新
这一新模型的关键技术创新是Cursor称为"自总结"的训练技术。"我们通过一个名为自总结的强化学习过程训练Composer处理长期任务。通过将自总结纳入Composer的训练中,我们可以从远超模型最大上下文窗口的轨迹中获得训练信号,"公司在公告中写道。
智能体编程往往会生成长的动作历史,很快就会超出模型的上下文窗口。传统上,像Cursor这样的公司要么创建模型先前工作的紧凑文本摘要,要么使用滑动上下文窗口,丢弃较旧的上下文以支持更近期的工作。
"这些压缩方法的共同缺点是可能导致模型忘记上下文中的关键信息,降低其在长期运行任务中的有效性,"Cursor认为。
Cursor的方法被团队称为循环压缩强化学习,将摘要功能直接构建到训练循环中。当生成达到Token长度触发器时,模型会暂停并将自己的上下文压缩到大约1000个Token,而传统方法通常需要5000个或更多Token。由于团队在训练模型时使用的强化学习奖励覆盖了整个链条,包括摘要步骤,模型学会了保留哪些细节,丢弃哪些内容。
根据Cursor的研究报告,自总结技术将压缩错误减少了50%。
Q&A
Q1:Cursor的Composer 2有什么特别之处?
A:Composer 2是Cursor的第三代自研编程模型,在Terminal-Bench 2.0基准测试中得分61.7%,超越了Claude Opus 4.6的58.0%,且成本仅为0.5美元每百万输入Token,远低于竞争对手。这是首个采用连续预训练的Composer版本。
Q2:什么是自总结技术?它如何改善编程效果?
A:自总结是Cursor开发的训练技术,通过循环压缩强化学习将摘要功能直接构建到训练循环中。当达到Token长度限制时,模型会自动压缩上下文到约1000个Token,学会保留关键信息并丢弃无关内容,将压缩错误减少了50%。
Q3:Composer 2的定价策略如何?与竞争对手相比有什么优势?
A:Composer 2提供两种模式:标准模式输入/输出Token分别为0.5美元和2.5美元每百万,快速模式为1.5美元和7.5美元每百万。相比Claude Opus 4.6的5美元/25美元和OpenAI GPT-5.4的2.5美元/15美元,具有明显的成本优势。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。