project
Composer 2.5 - Cursor 推出的自研 Agentic 编程模型
Composer 2.5 是 Cursor 推出的自研 Agentic 编程模型。在智能水平和行为表现上较 Composer 2 有大幅提升,在 SWE-Bench Multilingual(79.8%) 和 CursorBen...
Composer 2.5是什么
Composer 2.5 是 Cursor 推出的自研 Agentic 编程模型。在智能水平和行为表现上较 Composer 2 有大幅提升,在 SWE-Bench Multilingual(79.8%) 和 CursorBench v3.1(63.2%) 等核心基准上与 Claude Opus 4.7、GPT-5.5 处于同一梯队,但单次任务成本仅为竞品的约 1/10,称为”性价比之王”。模型基于 Moonshot 开源的 Kimi K2.5 检查点持续训练,目前仅通过 Cursor IDE 及 SDK 提供服务。
Composer 2.5的主要功能
-
长时任务持续工作:针对长时间运行的 Agent 会话深度优化,能在多步骤工具调用中保持专注,显著减少中途幻觉或提前终止的问题。
-
复杂指令可靠遵循:对跨文件重构、终端命令执行、测试驱动开发等复杂指令的遵循可靠性较 Composer 2 大幅提升。
-
努力级别动态校准:模型能根据任务难度自动分配计算量,简单任务快速完成,复杂任务深入思考,避免”小事空转、大事欠思考”。
-
沟通风格优化:回复更简洁结构化,减少不必要的冗长解释,在多文件变更时提供更清晰的推理过程。
-
工具调用精准度提升:显著减少无效的终端命令或冗余搜索,提升代码检索与终端操作效率。
-
双版本灵活适配:提供 Standard(标准版,$0.50/$2.50 per M tokens)与 Fast(快速版,$3.00/$15.00 per M tokens),智能水平相同,分别适配后台批量任务与交互式实时编程。
如何使用Composer 2.5
-
在 Cursor IDE 中启用:将 Cursor 更新至 2026 年 5 月最新稳定版,打开 Composer 面板(
Cmd+I/Ctrl+I),点击模型选择器切换至 Composer 2.5 -
选择速度档位:交互式开发默认使用 Fast 版(响应快、延迟低);后台 Agent 或批量任务可在 Settings > Models 中切换为 Standard 版(成本低,智能水平相同)
-
通过 SDK 程序化调用:
import { Agent } from "@cursor/sdk";
const agent = await Agent.create({
model: "composer-2.5", // Standard 版
// model: "composer-2.5-fast", // Fast 版
workspace: "./",
tools: ["edit", "shell", "search", "browser"],
});
-
为长时任务设限:为无人看管的长时间 Agent 会话设置迭代次数上限和最大耗时,防止模型利用缓存等”捷径”进行奖励作弊
-
领取首发福利:发布首周提供双倍用量额度,可在后台查看额度消耗情况
-
多模型路由策略:将 90% 日常任务交给 Composer 2.5 处理;仅将架构评审类任务路由给 Claude Opus 4.7,重度终端 Shell 任务路由给 GPT-5.5
Composer 2.5的核心优势
-
极致性价比:Standard 版输入 $0.50/M、输出 $2.50/M,Fast 版输入 $3.00/M、输出 $15.00/M,比 Claude Opus 4.7 便宜约 10~30 倍。
-
前沿级基准表现:SWE-Bench Multilingual 79.8%(Opus 4.7 为 80.5%,GPT-5.5 为 77.8%),CursorBench v3.1 63.2%(与 Opus 4.7 的 64.8% 和 GPT-5.5 的 64.3% 基本持平)。
-
行为层面深度优化:除了扩大训练规模,还改进了沟通风格和投入级别校准,这些维度虽难被基准充分反映,但对实际使用体验至关重要。
-
双版本灵活选择:Standard(标准版)适合后台 Agent 与批量任务,Fast(快速版,默认)适合交互式 IDE 实时编程,两者智能水平完全相同。
-
首发双倍用量福利:发布首周提供双倍用量额度。
Composer 2.5的同类竞品对比
| 对比维度 | Composer 2.5 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| 厂商 / 平台 | Cursor | Anthropic | OpenAI |
| 产品定位 | 自研 Agentic 编程模型 | 旗舰推理模型 | 旗舰多模态模型 |
| 基座模型 | Moonshot Kimi K2.5(开源检查点持续训练) | Claude 4 系列 | GPT-5 系列 |
| 发布日期 | 2026.05.18 | 2026 年 Q2 | 2026 年 Q2 |
| SWE-Bench Multilingual | 79.8% | 80.5% | 77.8% |
| Terminal-Bench 2.0 | 69.3% | 69.4% | 82.7% |
| CursorBench v3.1(困难任务) | 63.2% | 64.8%(max)/ 61.6%(默认 xhigh) | 64.3%(xhigh)/ 59.2%(默认 medium) |
| 输入价格(/M tokens) | $0.50(Standard)< $3.00(Fast) |
未公开(行业参考约 $15) | 未公开(行业参考约 $3–$5) |
| 输出价格(/M tokens) | $2.50(Standard)< $15.00(Fast) |
未公开(行业参考约 $75) | 未公开(行业参考约 $15–$30) |
| 单次任务相对成本 | 基准(约 $1–$2 / 任务) | 约 10–30 倍 | 约 3–10 倍 |
| 上下文窗口 | ~200K(参考 Kimi K2.5) | 200K | 128K–1M |
| 权重开放性 | 闭源(仅 Cursor 基础设施) | 闭源 | 闭源 |
| 接入方式 | Cursor IDE / CLI / @cursor/sdk |
API / Claude Code / 第三方平台 | API / ChatGPT / GitHub Copilot |
Composer 2.5的应用场景
-
多文件级重构:成本优势明显且精度持平前沿模型,适合大规模代码库迁移。
-
交互式结对编程:Fast 版响应迅速,适合实时 IDE 协作。
-
后台定时任务/云 Agent:Standard 版性价比极高,适合批量代码审查与修复。
-
测试驱动开发:长时任务可靠性优于前代,能稳定完成多轮测试-修复循环。
-
复杂终端自动化:Terminal-Bench 2.0 得分 69.3%,与 Opus 4.7(69.4%)持平,但重度 Shell 场景仍略逊于 GPT-5.5(82.7%)。