Cursor滑跪开源技术报告:Kimi基模这样微调能干翻Claude

news2026/3/28 16:35:25
Cursor滑跪开源技术报告Kimi基模这样微调能干翻Claude导读当套壳成为一门技术活Cursor用一份技术报告告诉我们基于中国开源模型Kimi K2.5通过持续预训练异步强化学习完全可以在代码Agent领域干翻Claude Opus 4.6。这不是简单的拿来主义而是一场关于开源基模垂直微调的工程范式革命。文章目录Cursor滑跪开源技术报告Kimi基模这样微调能干翻Claude一、事件回顾从套壳疑云到滑跪认错3月19日Composer 2的自研宣言3月20-21日社区破案与马斯克实锤3月21日Cursor的滑跪与和解3月27日技术报告发布——有技术地套二、技术深扒Cursor如何把Kimi 2.5炼成Composer 22.1 整体架构站在巨人肩膀上的二次创作2.2 阶段一持续预训练Continual Pre-training2.3 阶段二异步强化学习Async RL训练框架设计关键技术创新训练效果验证2.4 评测体系自建CursorBench的降维打击2.5 成本与效率帕累托最优的工程实践三、行业冲击开源基模时代的套壳哲学3.1 从造轮子到改引擎AI应用层的新分工3.2 开源基模的权力反转3.3 争议背后的估值叙事冲突四、开发者启示如何有技术地套4.1 基座选择不要重复造轮子4.2 数据工程垂直领域的护城河4.3 训练策略预训练RL的组合拳4.4 评测体系建立内部标准五、未来展望开源生态的中国时刻5.1 Kimi的Scaling Law新解5.2 开源 vs 闭源效率之争5.3 给开发者的建议结语从Copy to China到Copy from China一、事件回顾从套壳疑云到滑跪认错3月19日Composer 2的自研宣言Cursor发布了Composer 2官方博客宣称这是首个自研模型采用首次对基座模型进行持续预训练结合强化学习的技术路径 。基准测试数据相当亮眼CursorBench61.3分超越Claude Opus 4.6的58.2分SWE-bench Multilingual73.7分较上一代65.9分大幅提升博客用了一个精心措辞的说法“我们的第一次继续预训练”——给人的感觉是Cursor从头训练了一个编程模型。3月20-21日社区破案与马斯克实锤不到24小时开发者Fynn通过调试API截获模型IDkimi-k2p5-rl-0317-s515-fast。月之暗面预训练负责人杜宇伦确认该模型与Kimi K2.5使用完全一致的tokenizer。埃隆·马斯克在X上转发并实锤“Yeah, it’s Kimi 2.5” 。更尴尬的是这是Cursor第二次被发现使用中国开源基座模型。2025年11月发布的Composer 1已被社区识别出tokenizer与DeepSeek一致且推理中偶现中文输出Cursor当时未作回应 。3月21日Cursor的滑跪与和解面对舆论压力Cursor联合创始人Aman Sanger公开认错“一开始没在博客里提到Kimi的底座是我们的疏忽。下一个模型我们会改正” 。随后Cursor与月之暗面确认存在商业授权合作双方达成和解 。3月27日技术报告发布——“有技术地套”最新消息Cursor放出Composer 2技术报告力证自己不是纯套而是有技术地套、循序渐进地套 。报告开篇第一件事老老实实署名Kimi K2.5并盛赞“训练前我们评估了多款潜在的开源基础模型包括GLM5、Kimi K2.5和DeepSeek V3.2但Kimi K2.5是最棒的”滑跪速度之快态度之诚恳……但网友们似乎并不买账。毕竟这份报告更像是一份危机公关技术找补的混合体。二、技术深扒Cursor如何把Kimi 2.5炼成Composer 2抛开争议这份技术报告确实揭示了一套完整的开源基模垂直优化范式。对于想基于开源模型做垂直领域落地的开发者来说极具参考价值。2.1 整体架构站在巨人肩膀上的二次创作┌─────────────────────────────────────────┐ │ Composer 2 架构 │ ├─────────────────────────────────────────┤ │ 应用层Cursor IDE Agent 交互逻辑 │ ├─────────────────────────────────────────┤ │ 训练层持续预训练(32k→256k) 异步RL │ ├─────────────────────────────────────────┤ │ 基座层Kimi K2.5 (约25%预训练权重) │ └─────────────────────────────────────────┘Cursor员工Lee Robinson透露Composer 2约25%的预训练来自K2.5的基座模型其余75%通过继续预训练和强化学习完成 。推理部署由Fireworks提供商业授权支持。2.2 阶段一持续预训练Continual Pre-training这是Composer 2的地基工程目的是提升模型在编码领域的基础知识和潜在编码能力分为三个子阶段 阶段序列长度目标关键技术基础训练32k tokens掌握代码语法、结构、常见模式大部分计算资源投入长上下文扩展256k tokens支持大型代码库理解短期训练快速扩展指令微调(SFT)-适配特定代码任务小样本指令调优工程亮点多token预测(MTP)新增MTP层结合投机解码技术和自蒸馏策略显著提升线上推理速度数据质量验证模型在自研代码库上的损失值呈对数线性下降且代码库困惑度与下游RL性能正相关证明预训练有效性2.3 阶段二异步强化学习Async RL这是Composer 2的灵魂注入环节。Cursor没有采用简单的SFT而是构建了一套高度模拟真实Cursor对话场景的RL训练环境 。训练框架设计# 伪代码示意 Composer 2 RL 训练流程classComposer2RL:def__init__(self):self.base_modelkimi-k2.5self.optimizerAdam# 全参数更新self.algorithmOptimized_GRPOdeftrain_step(self,instruction):# 单指令多样本策略samplesself.generate_multiple(instruction,kK)# 同一指令仅参与一次训练避免过拟合ifinstructioninself.seen_instructions:return# 移除长度标准化避免长度偏差rewardsself.compute_rewards(samples,normalizeFalse)# KL散度正则化 (k1-log r)kl_penaltyself.kl_divergence(samples,self.base_model)# 更新策略lossself.grpo_loss(rewards,kl_penalty)self.model.update(loss)关键技术创新稳定性优化采用单指令多样本的策略梯度算法设置固定的样本组大小避免训练震荡同一指令仅参与一次训练防止记忆化GRPO算法改进移除长度标准化项避免模型拖长答案的投机行为引入KL散度k1-log r实现正则化保持与基座模型的偏离可控辅助奖励机制正向奖励代码风格、交互表达质量负向惩罚不当工具调用、危险操作动态调整根据训练中涌现的行为实时调整奖励规则训练效果验证研究发现最终模型的平均性能和best-of-K性能同步提升证明RL不仅重新加权推理路径还扩展了正确解的覆盖范围。这意味着模型不是死记硬背而是真正学会了举一反三。2.4 评测体系自建CursorBench的降维打击Cursor没有依赖SWE-bench等公开基准而是自建了CursorBench——一套更贴近真实编程场景的评估体系 维度CursorBenchSWE-bench代码修改量中位数181行7-10行指令长度中位数390字符1185-3055字符评估维度功能正确性代码质量执行效率智能体交互仅功能正确性任务来源真实Cursor Agent使用场景开源仓库Issue这种自己出题自己考看似不公平但恰恰反映了垂直领域评测的本质公开基准测试的是解题能力而CursorBench测试的是工程交付能力。结果显示Composer 2在CursorBench-3中准确率达61.3%较1.5版本相对提升37%、较1版相对提升61% 。2.5 成本与效率帕累托最优的工程实践Composer 2实现了帕累托最优推理成本与更小的模型相当精度表现媲美大尺寸前沿模型Claude Opus 4.6Token效率与其它SOTA模型持平无额外资源消耗这意味着通过精细的垂直优化中等规模的基座模型高质量领域数据高效RL训练完全可以挑战千亿级闭源模型的性能。三、行业冲击开源基模时代的套壳哲学Cursor事件不是孤立的翻车现场而是AI行业范式转移的缩影。3.1 从造轮子到改引擎AI应用层的新分工传统认知中自研模型意味着从0开始预训练。但Cursor的实践揭示了新范式模式代表投入风险适用场景全栈自研OpenAI, Anthropic数十亿美元极高通用AGI开源基模垂直优化Cursor, 多数AI应用数百万-千万美元中等垂直领域纯API调用早期Cursor, 多数初创公司低依赖性强快速验证Cursor的选择是理性的作为代码编辑器公司其核心能力不是预训练大模型而是理解开发者需求、构建Agent交互、积累代码数据。基于Kimi 2.5这样的开源SOTA模型做垂直优化是性价比最高的路径 。3.2 开源基模的权力反转这场争议的最大赢家是中国开源模型生态。Kimi K2.5成为Cursor评估后认定的最强基模超越GLM5、DeepSeek V3.2Modified MIT许可证虽然要求商业产品标注但提供了合法合规的使用路径性能背书Composer 2在代码任务上超越Claude Opus 4.6证明了开源模型的商业落地潜力正如杨植麟在中关村论坛所言“开源模型正在逐渐成为新的标准。而以Kimi K2.5为代表的开源模型已经成为全世界所有芯片厂商测试硬件性能的基准” 。3.3 争议背后的估值叙事冲突Cursor正处于约500亿美元估值的融资关键期ARR在90天内由10亿美元增至20亿美元 。承认基于开源模型意味着其技术护城河不如全栈自研叙事中那么深。但讽刺的是Cursor此前高度依赖Anthropic的Claude模型年付推理费用约6.5亿美元导致毛利率为负 。转向自研即使是基于开源的优化实为降低依赖、改善利润结构的生存性举措。这场套壳争议的本质是资本市场对AI公司估值逻辑的重估当开源模型足够强“拥有模型” vs 善用模型哪个更有价值四、开发者启示如何有技术地套Cursor的技术报告为基于开源模型做垂直优化的开发者提供了可复用的方法论。4.1 基座选择不要重复造轮子选型 checklist许可证兼容性Modified MIT、Apache 2.0等商业友好型Tokenizer一致性避免后续训练数据格式冲突Cursor与Kimi使用相同tokenizer是关键基础设施匹配考虑推理部署成本、硬件兼容性社区活跃度模型更新频率、bug修复速度、生态工具丰富度Cursor评估了GLM5、Kimi K2.5、DeepSeek V3.2后选择Kimi理由是综合能力突出自研基础设施中的执行效率 。4.2 数据工程垂直领域的护城河Cursor的核心资产不是模型权重而是自研代码库和真实Agent交互数据。数据策略领域数据积累构建高质量、专有的领域语料库Cursor的自研代码库真实场景模拟训练环境高度模拟实际产品交互Cursor的RL环境模拟真实对话场景数据-指标相关性验证预训练指标如困惑度与下游任务性能的相关性4.3 训练策略预训练RL的组合拳技术路线开源基模 → 持续预训练领域数据长上下文扩展SFT → 异步强化学习真实场景模拟多维度奖励动态调整 → 垂直领域SOTA模型关键技巧分阶段训练先扩展能力预训练再对齐场景RL全参数更新使用Adam优化器更新全部参数而非LoRA等轻量微调保证充分适配避免过拟合同一指令仅参与一次训练使用KL散度约束与基座模型的偏离4.4 评测体系建立内部标准不要迷信公开基准。CursorBench的设计哲学值得借鉴任务真实性来自真实产品场景而非构造的测试集多维度评估功能正确性只是底线代码质量、执行效率、交互体验同样重要难度匹配指令更简洁390字符 vs 1000修改量更大181行 vs 7-10行更接近工程师实际工作流五、未来展望开源生态的中国时刻Cursor事件标志着中国开源模型从跟随者向标准制定者的转变。5.1 Kimi的Scaling Law新解杨植麟在技术报告中分享了Kimi团队的最新思考提出大模型训练的第三阶段阶段时间核心特征第一阶段2023-2024天然数据为主少量人工标注第二阶段2025人工筛选高质量任务大规模强化学习第三阶段2026Agent集群协作规模化输入/输出/执行/编排Kimi的Scaling策略聚焦于三点 Token效率用同样有限的数据学到更多智能长上下文新架构Kimi Linear从根本上提升长程能力Agent集群不再死磕单模型极致而是通过多Agent协作解决复杂问题5.2 开源 vs 闭源效率之争Cursor的实践证明了开源基模垂直优化路线的可行性成本效率避免数十亿美元的预训练投入迭代速度基于成熟基座快速验证场景合规可控Modified MIT等许可证提供了明确的商业使用路径这对闭源模型厂商构成了根本性挑战当开源模型通过垂直优化能在特定领域超越闭源模型通用模型的溢价空间在哪里5.3 给开发者的建议拥抱开源Kimi、DeepSeek、GLM等中国开源模型已具备商业落地能力且许可证日益完善专注场景与其追求通用大模型不如在垂直场景做深做透如Cursor专注代码Agent数据为王模型权重会同质化但高质量领域数据和RL训练环境是护城河合规先行使用开源模型务必遵守许可证要求标注义务、商用限制等避免Cursor式的滑跪结语从Copy to China到Copy from China十年前中国互联网公司被诟病Copy to China。如今硅谷明星公司Cursor基于中国开源模型构建核心产品甚至在被发现后滑跪道歉——这何尝不是一种**“Copy from China”**但Cursor的技术报告也证明套壳不是原罪无脑套才是。通过持续预训练、异步强化学习、自建评测体系Cursor确实把Kimi 2.5炼成了在代码Agent领域超越Claude的存在。这场争议的最大启示是开源基模时代拥有模型不再是壁垒用好模型才是核心竞争力。对于广大开发者来说这是一个比训练千亿参数模型更务实、更可行的创业路径。正如杨植麟所言“我们希望通过开源让所有人都能以非常低的门槛获取智能。最终大家能够去形成一个开源生态系统共同推动AI领域的发展” 。Cursor的滑跪或许正是这个开源生态系统走向成熟的标志。参考链接Cursor Composer 2技术报告解读36氪https://www.36kr.com/p/3740414075011328Cursor套壳Kimi事件回顾DoNewshttps://www.donews.com/news/detail/4/6478296.html杨植麟中关村论坛演讲智源社区https://hub.baai.ac.cn/view/53368

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2458528.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…