Cursor滑跪开源技术报告：Kimi基模这样微调能干翻Claude

news2026/3/28 16:35:25

Cursor滑跪开源技术报告Kimi基模这样微调能干翻Claude导读当套壳成为一门技术活Cursor用一份技术报告告诉我们基于中国开源模型Kimi K2.5通过持续预训练异步强化学习完全可以在代码Agent领域干翻Claude Opus 4.6。这不是简单的拿来主义而是一场关于开源基模垂直微调的工程范式革命。文章目录Cursor滑跪开源技术报告Kimi基模这样微调能干翻Claude一、事件回顾从套壳疑云到滑跪认错3月19日Composer 2的自研宣言3月20-21日社区破案与马斯克实锤3月21日Cursor的滑跪与和解3月27日技术报告发布——有技术地套二、技术深扒Cursor如何把Kimi 2.5炼成Composer 22.1 整体架构站在巨人肩膀上的二次创作2.2 阶段一持续预训练Continual Pre-training2.3 阶段二异步强化学习Async RL训练框架设计关键技术创新训练效果验证2.4 评测体系自建CursorBench的降维打击2.5 成本与效率帕累托最优的工程实践三、行业冲击开源基模时代的套壳哲学3.1 从造轮子到改引擎AI应用层的新分工3.2 开源基模的权力反转3.3 争议背后的估值叙事冲突四、开发者启示如何有技术地套4.1 基座选择不要重复造轮子4.2 数据工程垂直领域的护城河4.3 训练策略预训练RL的组合拳4.4 评测体系建立内部标准五、未来展望开源生态的中国时刻5.1 Kimi的Scaling Law新解5.2 开源 vs 闭源效率之争5.3 给开发者的建议结语从Copy to China到Copy from China一、事件回顾从套壳疑云到滑跪认错3月19日Composer 2的自研宣言Cursor发布了Composer 2官方博客宣称这是首个自研模型采用首次对基座模型进行持续预训练结合强化学习的技术路径。基准测试数据相当亮眼CursorBench61.3分超越Claude Opus 4.6的58.2分SWE-bench Multilingual73.7分较上一代65.9分大幅提升博客用了一个精心措辞的说法“我们的第一次继续预训练”——给人的感觉是Cursor从头训练了一个编程模型。3月20-21日社区破案与马斯克实锤不到24小时开发者Fynn通过调试API截获模型IDkimi-k2p5-rl-0317-s515-fast。月之暗面预训练负责人杜宇伦确认该模型与Kimi K2.5使用完全一致的tokenizer。埃隆·马斯克在X上转发并实锤“Yeah, it’s Kimi 2.5” 。更尴尬的是这是Cursor第二次被发现使用中国开源基座模型。2025年11月发布的Composer 1已被社区识别出tokenizer与DeepSeek一致且推理中偶现中文输出Cursor当时未作回应。3月21日Cursor的滑跪与和解面对舆论压力Cursor联合创始人Aman Sanger公开认错“一开始没在博客里提到Kimi的底座是我们的疏忽。下一个模型我们会改正” 。随后Cursor与月之暗面确认存在商业授权合作双方达成和解。3月27日技术报告发布——“有技术地套”最新消息Cursor放出Composer 2技术报告力证自己不是纯套而是有技术地套、循序渐进地套。报告开篇第一件事老老实实署名Kimi K2.5并盛赞“训练前我们评估了多款潜在的开源基础模型包括GLM5、Kimi K2.5和DeepSeek V3.2但Kimi K2.5是最棒的”滑跪速度之快态度之诚恳……但网友们似乎并不买账。毕竟这份报告更像是一份危机公关技术找补的混合体。二、技术深扒Cursor如何把Kimi 2.5炼成Composer 2抛开争议这份技术报告确实揭示了一套完整的开源基模垂直优化范式。对于想基于开源模型做垂直领域落地的开发者来说极具参考价值。2.1 整体架构站在巨人肩膀上的二次创作┌─────────────────────────────────────────┐ │ Composer 2 架构 │ ├─────────────────────────────────────────┤ │ 应用层Cursor IDE Agent 交互逻辑 │ ├─────────────────────────────────────────┤ │ 训练层持续预训练(32k→256k) 异步RL │ ├─────────────────────────────────────────┤ │ 基座层Kimi K2.5 (约25%预训练权重) │ └─────────────────────────────────────────┘Cursor员工Lee Robinson透露Composer 2约25%的预训练来自K2.5的基座模型其余75%通过继续预训练和强化学习完成。推理部署由Fireworks提供商业授权支持。2.2 阶段一持续预训练Continual Pre-training这是Composer 2的地基工程目的是提升模型在编码领域的基础知识和潜在编码能力分为三个子阶段阶段序列长度目标关键技术基础训练32k tokens掌握代码语法、结构、常见模式大部分计算资源投入长上下文扩展256k tokens支持大型代码库理解短期训练快速扩展指令微调(SFT)-适配特定代码任务小样本指令调优工程亮点多token预测(MTP)新增MTP层结合投机解码技术和自蒸馏策略显著提升线上推理速度数据质量验证模型在自研代码库上的损失值呈对数线性下降且代码库困惑度与下游RL性能正相关证明预训练有效性2.3 阶段二异步强化学习Async RL这是Composer 2的灵魂注入环节。Cursor没有采用简单的SFT而是构建了一套高度模拟真实Cursor对话场景的RL训练环境。训练框架设计# 伪代码示意 Composer 2 RL 训练流程classComposer2RL:def__init__(self):self.base_modelkimi-k2.5self.optimizerAdam# 全参数更新self.algorithmOptimized_GRPOdeftrain_step(self,instruction):# 单指令多样本策略samplesself.generate_multiple(instruction,kK)# 同一指令仅参与一次训练避免过拟合ifinstructioninself.seen_instructions:return# 移除长度标准化避免长度偏差rewardsself.compute_rewards(samples,normalizeFalse)# KL散度正则化 (k1-log r)kl_penaltyself.kl_divergence(samples,self.base_model)# 更新策略lossself.grpo_loss(rewards,kl_penalty)self.model.update(loss)关键技术创新稳定性优化采用单指令多样本的策略梯度算法设置固定的样本组大小避免训练震荡同一指令仅参与一次训练防止记忆化GRPO算法改进移除长度标准化项避免模型拖长答案的投机行为引入KL散度k1-log r实现正则化保持与基座模型的偏离可控辅助奖励机制正向奖励代码风格、交互表达质量负向惩罚不当工具调用、危险操作动态调整根据训练中涌现的行为实时调整奖励规则训练效果验证研究发现最终模型的平均性能和best-of-K性能同步提升证明RL不仅重新加权推理路径还扩展了正确解的覆盖范围。这意味着模型不是死记硬背而是真正学会了举一反三。2.4 评测体系自建CursorBench的降维打击Cursor没有依赖SWE-bench等公开基准而是自建了CursorBench——一套更贴近真实编程场景的评估体系维度CursorBenchSWE-bench代码修改量中位数181行7-10行指令长度中位数390字符1185-3055字符评估维度功能正确性代码质量执行效率智能体交互仅功能正确性任务来源真实Cursor Agent使用场景开源仓库Issue这种自己出题自己考看似不公平但恰恰反映了垂直领域评测的本质公开基准测试的是解题能力而CursorBench测试的是工程交付能力。结果显示Composer 2在CursorBench-3中准确率达61.3%较1.5版本相对提升37%、较1版相对提升61% 。2.5 成本与效率帕累托最优的工程实践Composer 2实现了帕累托最优推理成本与更小的模型相当精度表现媲美大尺寸前沿模型Claude Opus 4.6Token效率与其它SOTA模型持平无额外资源消耗这意味着通过精细的垂直优化中等规模的基座模型高质量领域数据高效RL训练完全可以挑战千亿级闭源模型的性能。三、行业冲击开源基模时代的套壳哲学Cursor事件不是孤立的翻车现场而是AI行业范式转移的缩影。3.1 从造轮子到改引擎AI应用层的新分工传统认知中自研模型意味着从0开始预训练。但Cursor的实践揭示了新范式模式代表投入风险适用场景全栈自研OpenAI, Anthropic数十亿美元极高通用AGI开源基模垂直优化Cursor, 多数AI应用数百万-千万美元中等垂直领域纯API调用早期Cursor, 多数初创公司低依赖性强快速验证Cursor的选择是理性的作为代码编辑器公司其核心能力不是预训练大模型而是理解开发者需求、构建Agent交互、积累代码数据。基于Kimi 2.5这样的开源SOTA模型做垂直优化是性价比最高的路径。3.2 开源基模的权力反转这场争议的最大赢家是中国开源模型生态。Kimi K2.5成为Cursor评估后认定的最强基模超越GLM5、DeepSeek V3.2Modified MIT许可证虽然要求商业产品标注但提供了合法合规的使用路径性能背书Composer 2在代码任务上超越Claude Opus 4.6证明了开源模型的商业落地潜力正如杨植麟在中关村论坛所言“开源模型正在逐渐成为新的标准。而以Kimi K2.5为代表的开源模型已经成为全世界所有芯片厂商测试硬件性能的基准” 。3.3 争议背后的估值叙事冲突Cursor正处于约500亿美元估值的融资关键期ARR在90天内由10亿美元增至20亿美元。承认基于开源模型意味着其技术护城河不如全栈自研叙事中那么深。但讽刺的是Cursor此前高度依赖Anthropic的Claude模型年付推理费用约6.5亿美元导致毛利率为负。转向自研即使是基于开源的优化实为降低依赖、改善利润结构的生存性举措。这场套壳争议的本质是资本市场对AI公司估值逻辑的重估当开源模型足够强“拥有模型” vs 善用模型哪个更有价值四、开发者启示如何有技术地套Cursor的技术报告为基于开源模型做垂直优化的开发者提供了可复用的方法论。4.1 基座选择不要重复造轮子选型 checklist许可证兼容性Modified MIT、Apache 2.0等商业友好型Tokenizer一致性避免后续训练数据格式冲突Cursor与Kimi使用相同tokenizer是关键基础设施匹配考虑推理部署成本、硬件兼容性社区活跃度模型更新频率、bug修复速度、生态工具丰富度Cursor评估了GLM5、Kimi K2.5、DeepSeek V3.2后选择Kimi理由是综合能力突出自研基础设施中的执行效率。4.2 数据工程垂直领域的护城河Cursor的核心资产不是模型权重而是自研代码库和真实Agent交互数据。数据策略领域数据积累构建高质量、专有的领域语料库Cursor的自研代码库真实场景模拟训练环境高度模拟实际产品交互Cursor的RL环境模拟真实对话场景数据-指标相关性验证预训练指标如困惑度与下游任务性能的相关性4.3 训练策略预训练RL的组合拳技术路线开源基模 → 持续预训练领域数据长上下文扩展SFT → 异步强化学习真实场景模拟多维度奖励动态调整 → 垂直领域SOTA模型关键技巧分阶段训练先扩展能力预训练再对齐场景RL全参数更新使用Adam优化器更新全部参数而非LoRA等轻量微调保证充分适配避免过拟合同一指令仅参与一次训练使用KL散度约束与基座模型的偏离4.4 评测体系建立内部标准不要迷信公开基准。CursorBench的设计哲学值得借鉴任务真实性来自真实产品场景而非构造的测试集多维度评估功能正确性只是底线代码质量、执行效率、交互体验同样重要难度匹配指令更简洁390字符 vs 1000修改量更大181行 vs 7-10行更接近工程师实际工作流五、未来展望开源生态的中国时刻Cursor事件标志着中国开源模型从跟随者向标准制定者的转变。5.1 Kimi的Scaling Law新解杨植麟在技术报告中分享了Kimi团队的最新思考提出大模型训练的第三阶段阶段时间核心特征第一阶段2023-2024天然数据为主少量人工标注第二阶段2025人工筛选高质量任务大规模强化学习第三阶段2026Agent集群协作规模化输入/输出/执行/编排Kimi的Scaling策略聚焦于三点 Token效率用同样有限的数据学到更多智能长上下文新架构Kimi Linear从根本上提升长程能力Agent集群不再死磕单模型极致而是通过多Agent协作解决复杂问题5.2 开源 vs 闭源效率之争Cursor的实践证明了开源基模垂直优化路线的可行性成本效率避免数十亿美元的预训练投入迭代速度基于成熟基座快速验证场景合规可控Modified MIT等许可证提供了明确的商业使用路径这对闭源模型厂商构成了根本性挑战当开源模型通过垂直优化能在特定领域超越闭源模型通用模型的溢价空间在哪里5.3 给开发者的建议拥抱开源Kimi、DeepSeek、GLM等中国开源模型已具备商业落地能力且许可证日益完善专注场景与其追求通用大模型不如在垂直场景做深做透如Cursor专注代码Agent数据为王模型权重会同质化但高质量领域数据和RL训练环境是护城河合规先行使用开源模型务必遵守许可证要求标注义务、商用限制等避免Cursor式的滑跪结语从Copy to China到Copy from China十年前中国互联网公司被诟病Copy to China。如今硅谷明星公司Cursor基于中国开源模型构建核心产品甚至在被发现后滑跪道歉——这何尝不是一种**“Copy from China”**但Cursor的技术报告也证明套壳不是原罪无脑套才是。通过持续预训练、异步强化学习、自建评测体系Cursor确实把Kimi 2.5炼成了在代码Agent领域超越Claude的存在。这场争议的最大启示是开源基模时代拥有模型不再是壁垒用好模型才是核心竞争力。对于广大开发者来说这是一个比训练千亿参数模型更务实、更可行的创业路径。正如杨植麟所言“我们希望通过开源让所有人都能以非常低的门槛获取智能。最终大家能够去形成一个开源生态系统共同推动AI领域的发展” 。Cursor的滑跪或许正是这个开源生态系统走向成熟的标志。参考链接Cursor Composer 2技术报告解读36氪https://www.36kr.com/p/3740414075011328Cursor套壳Kimi事件回顾DoNewshttps://www.donews.com/news/detail/4/6478296.html杨植麟中关村论坛演讲智源社区https://hub.baai.ac.cn/view/53368

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2458528.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！