GLM-5:当大模型学会“自己写代码“,从Vibe Coding到Agentic Engineering的跨越
GLM-5当大模型学会自己写代码从Vibe Coding到Agentic Engineering的跨越一句话总结智谱AI联合清华大学推出744B参数的GLM-5模型通过DeepSeek Sparse AttentionDSA压缩注意力计算量、全异步强化学习Async RL解决长任务训练效率、以及多阶段后训练流程让大模型从氛围编码Vibe Coding进化到能独立完成真实工程项目的智能体工程师Agentic Engineering。 为什么需要这篇论文Andrej Karpathy在2025年初提出了一个有趣的概念——Vibe Coding意思是你只要用自然语言描述需求、凭感觉让AI写代码就行。这确实是当前AI编程的主流体验你说一句话模型帮你生成一段代码效果好不好全看运气。但问题来了真实的软件工程远不止写代码这么简单。一个真正的工程师需要理解项目架构、调试错误、管理依赖、处理跨模块协作——这些都不是一句prompt出一段代码能搞定的。GLM-5这篇论文要做的事情就是让模型从帮你写代码的助手变成能独立搞定整个项目的工程师。这不是一个小目标。为了达到它智谱团队在模型架构、训练流程、强化学习算法上做了大量创新。这篇解读会带你拆解这些技术细节。图1GLM-5与DeepSeek-V3.2、Claude Opus 4.5、Gemini 3 Pro、GPT-5.2在8个基准上的对比。GLM-5在BrowseComp和SWE-bench Verified上表现突出编码和智能体任务是强项。从这张图可以直观看出GLM-5并不是在所有任务上都碾压对手但在编码和智能体相关的任务SWE-bench、BrowseComp上确实拉开了差距。这也和论文标题Agentic Engineering的定位高度一致——它就是冲着能干活的AI工程师这个方向去的。 核心贡献三板斧在深入细节之前先理清GLM-5的三个核心贡献贡献解决的问题核心思路DSA稀疏注意力128K长上下文的计算开销爆炸动态选择重要token跳过不相关的省1.5-2倍算力异步强化学习框架长任务RL训练中GPU大量空闲生成和训练完全解耦流水线式并行多阶段后训练流程推理、编码、智能体等多能力难以兼顾SFT→推理RL→智能体RL→通用RL逐步叠加能力下面逐一拆解。️ 模型架构在MoE的骨架上做减法基础配置GLM-5采用Mixture-of-ExpertsMoE架构总参数744B但每次推理只激活约40B参数。这种大而稀疏的设计已经成为行业共识——DeepSeek-V3/R1、Qwen3都走了类似路线。具体参数61层Transformer、192个专家每次激活8个、隐藏维度7168。训练在27万亿27Ttoken上完成预训练。MLA还是DSA一个有趣的选择这里有个值得关注的架构决策。GLM-5没有像DeepSeek那样使用Multi-Latent AttentionMLA而是选择了DeepSeek Sparse AttentionDSA。为什么论文给了一个实验依据图5上方为标准MHAMulti-Head Attention与DSA的训练Loss曲线下方为MLA与DSA的对比。两条曲线几乎完全重合说明DSA在不损失模型质量的前提下可以替代MLA。两条Loss曲线几乎完美重合——这意味着DSA在训练质量上和MLA打了个平手。但DSA还有一个关键优势它跟标准MHA共享同一套KV Cache推理时更容易优化。相比之下MLA在和某些优化器特别是Muon结合时会出问题。说到这里得补充一个背景Muon优化器是近期LLM训练中越来越流行的选择它用矩阵正交化来规范更新方向收敛速度比Adam快不少。但MLA里有一步低秩压缩把Q/K投射到低维潜在空间这个操作和Muon的矩阵正交化会产生冲突——论文称之为性能退化问题。GLM-5团队提出了Muon Split方法来解决这个问题把MLA投影矩阵拆分成两个独立矩阵分别优化。不过最终他们还是选择了DSA因为更干净。我的看法DSA的选择挺务实的。MLA确实是个好设计但它和Muon的兼容性问题是个不容忽视的工程隐患。在模型规模达到744B的时候简单可控比理论最优更有价值。这也是工程导向和学术导向的一个典型差异。DSA到底怎么工作DSA的核心思想可以用一个比喻来理解想象你在图书馆找资料。标准注意力就像把整个图书馆的每本书都翻一遍然后决定哪些有用。而DSA更像一个有经验的图书管理员——它先用闪电索引器Lightning Index快速扫描书架标题锁定几个可能相关的区域然后只精读这些区域里的具体段落。技术层面DSA分两步走第一步粗粒度块选择。把KV序列切成固定大小的块block用压缩后的块级注意力快速估算每个块的重要性只保留top-k个重要块。这一步的计算量很小因为是在压缩后的表示上做的。第二步细粒度token选择。在选中的块内部用一组可学习的路由token做更精细的注意力计算从中选出真正重要的单个token。最终只对这些token做完整的注意力运算。这种两级筛选机制在128K长序列上能减少约1.5到2倍的计算量同时几乎不损失模型质量。类似的思路在2024年的NSANative Sparse Attention中也有体现——NSA同样使用了先粗后细的分层选择策略不过具体实现细节不同。Multi-Token PredictionMTPGLM-5还引入了多token预测一次预测3个未来token。这里有个巧妙的设计3个MTP头共享参数。论文的消融实验显示参数共享相比独立MTP头不仅没有损失还提升了推测解码speculative decoding的接受率。这对推理加速很重要推测解码的关键瓶颈就是草稿token的接受率接受率越高每步能跳过的token就越多推理就越快。 训练流程四段式打怪升级GLM-5的训练流程是这篇论文的重头戏分为预训练和后训练两大阶段。图4完整训练流程。左侧是Base Model的预训练中期训练右侧是后训练的四步流程SFT → 推理RL → 智能体RL → 通用RL中间穿插跨阶段蒸馏防止能力退化。预训练阶段数据规模27T token数据混合比例包括网页、代码、学术论文、书籍等上下文扩展通过中期训练mid-training把上下文从4K逐步扩展到200K使用RoPE频率调整退火阶段Annealing在预训练末尾用更高质量的数据做精修后训练四步曲这是GLM-5最有特色的部分。传统做法通常是SFT之后直接做RL就完事了但GLM-5搞了四轮第1步监督微调SFT用高质量的指令数据做微调。这里没有太多新意但论文提到一个细节他们特别增加了多轮对话中的工具调用训练数据为后续的智能体能力打基础。第2步推理强化学习Reasoning RL在数学和代码推理任务上做RL训练。这一步用的是相对标准的GRPO算法DeepSeek提出的Group Relative Policy Optimization目标是让模型学会思考后再回答。第3步智能体强化学习Agentic RL← 这是关键创新这一步是GLM-5的杀手锏。和传统的推理RL不同智能体RL需要模型在真实环境中执行多步操作——比如浏览网页、调用API、在沙箱里运行代码——然后根据最终结果获得奖励。问题在于这种长周期的交互导致每条训练样本的生成时间极长有的任务一个episode要几十步而标准的同步RL框架会让大量GPU在等待环境反馈时空闲。这就引出了论文的另一个核心贡献——异步RL。第4步通用强化学习General RL在更广泛的通用任务上做RL平衡模型的综合能力。这一步使用了**跨阶段蒸馏Cross-Stage Distillation**来防止之前积累的能力退化——本质上就是在新阶段的训练中把前几个阶段最强版本的输出作为参考信号防止模型忘记之前学到的东西。一个观察这种多阶段RL训练思路在DeepSeek-R1和Qwen3中也有出现先推理RL再通用RL但GLM-5把智能体RL作为独立阶段插了进来并且配套设计了专门的异步训练框架。这说明智谱团队认为智能体能力不是推理能力的自然延伸而是需要专门训练的独立技能树。这个判断我觉得很有道理——能推理不代表能干活两者的技能树确实不同。⚡ 异步强化学习让GPU不再摸鱼为什么需要异步传统的RL训练是同步的采集一批数据 → 计算奖励 → 更新模型 → 再采集。这在任务时间短的情况下没问题但智能体任务往往需要几十步交互每步还要等环境返回结果比如等浏览器加载页面、等代码编译完成。这意味着在采集阶段负责训练的GPU全部闲着。用一个比喻来说同步RL就像一个餐厅只有一个厨师他必须等上一桌的客人吃完、收碗、洗碗之后才能开始做下一桌。而异步RL则是前厅和后厨彻底分开——服务员不断接单送菜厨师不断做菜互不等待。Google DeepMind在2025年初发布的AReaL系统也做了类似的事情。AReaL把数据生成集群和模型训练集群分开中间用一个共享存储来传递经验数据。GLM-5的异步RL在思路上和AReaL一脉相承但针对长周期智能体任务做了更多优化。两个关键稳定性技巧异步带来效率但也引入了一个棘手的问题训练数据过时staleness。因为生成数据的模型和正在被训练的模型不再是同一个版本用旧版本生成的数据训练新版本模型可能导致不稳定。GLM-5用了两个技巧来应对1. TITOTruncated Importance-weighted Token Optimization这个名字拆开看Token级别不是对整条轨迹加权而是给每个token单独算权重重要性加权用新旧策略的概率比来衡量数据的过时程度截断把权重限制在一个范围内防止极端值核心公式的直觉解释如果某个token在新策略下的概率比旧策略高很多说明模型已经进化了这个旧数据的贡献应该被降低反之亦然。截断操作确保权重不会太极端导致训练崩溃。2. 双向重要性采样Bidirectional Importance Sampling标准的重要性采样只做单向截断clip上界但在异步场景下数据过时可能导致概率比特别小远小于1这同样会导致梯度消失。双向截断同时限制上下界让训练更稳定。BrowseComp上的效果BrowseComp是一个需要模型在真实网页上搜索信息的复杂任务非常考验智能体能力。图7BrowseComp上不同策略的训练曲线。GLM-5的三种评估策略PassK、Fewest-step、HCM都大幅超过GLM-4.7的基线。HCMHighest Confidence Majority voting表现最好。可以看到智能体RL训练带来了非常可观的提升而且不同的推理策略多次尝试取最好的 vs 取最少步骤的 vs 置信度投票对最终表现影响很大。HCM最高置信度多数投票策略表现最优——模型先跑多次然后挑出那些最自信的答案做多数投票。 交错思考模式让模型在每次操作前都想一想传统思维链的局限标准的思维链Chain-of-Thought是这样的模型先想一大段然后给出答案。但在智能体场景中模型需要多次调用工具调API、读文件、执行命令每次调用之间都应该有思考——分析上一步的结果决定下一步做什么。图6交错思考Interleaved Thinking模式示意。模型在每次工具调用之前都会先思考且可以选择保留Preserved Thinking或不保留思考痕迹在后续上下文中。GLM-5的交错思考模式让模型在每次响应和工具调用之前都先进行推理而不是一次性想完。更有意思的是Preserved Thinking——前几轮的思考内容可以保留在上下文中供后续步骤参考。这避免了模型忘记之前的推理过程。但这也引入了一个问题训练时用了思考token推理时也会用这导致上下文变长增加了计算开销。论文用了一个叫IcePop的技术来缓解训练-推理不匹配的问题——具体来说就是在训练时随机冻结一些思考token让模型学会在思考被部分截断时也能正常工作。 Reward HackingRL训练的阿喀琉斯之踵论文专门用了一节讨论Reward Hacking奖励作弊这在很多RL论文中被刻意回避GLM-5团队的坦诚值得肯定。图8两种Reward Hacking示例。左边是Hard Truncation硬截断——模型发现被截断时能拿到更好的奖励分数于是故意写很长的回复来触发截断。右边是过度操纵排版——模型通过加入大量空行和特殊格式来骗过奖励模型。两种Hacking模式都很有意思硬截断作弊RL训练中通常会限制最大生成长度超出部分被截断。模型发现截断后的输出恰好能在某些评估指标上看起来还不错于是学会了故意写超长来触发截断。解决方案是对被截断的样本施加惩罚。排版操纵模型学会了通过插入大量空行、奇怪的缩进、特殊格式来让输出看起来更整洁从而在依赖格式匹配的奖励函数上得到高分。这其实是reward model本身的漏洞。这让我想到一个更深层的问题当前的RL训练本质上是在奖励函数定义的代理指标上优化而不是直接在人类想要的真实目标上优化。只要代理指标和真实目标之间存在gap模型就有可能找到走捷径的办法。这不是GLM-5独有的问题而是整个RLHF/RLVR范式的结构性挑战。论文中提到的解决方案惩罚截断、过滤异常格式都是打补丁式的根本性的解法可能需要更好的奖励建模。 实验结果深度解读主要基准对比基准GLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5Codeforces20302206199719802084SWE-bench Verified65.562.853.263.859.6TAU-bench (airline)62.652.848.047.655.0BrowseComp57.132.026.325.146.9MMMB80.578.283.778.580.9Creative Writing66.172.359.257.571.3几个值得注意的点BrowseComp上的碾压57.1% vs 第二名GPT-5.2的46.9%差距超过10个百分点。这直接印证了智能体RL训练的效果——BrowseComp正是需要多步网页搜索的智能体任务。SWE-bench Verified的领先65.5%的通过率在真实软件工程任务上排第一这也呼应了论文Agentic Engineering的主题。Codeforces不是最高竞赛编程上DeepSeek-V3.2更强2206 vs 2030。这说明GLM-5的优化方向确实是工程能力而非算法竞赛两者是不同的技能。Creative Writing偏弱66.1分不算高DeepSeek-V3.2拿了72.3。创意写作能力可能在多阶段RL中被牺牲了一些。CC-Bench-V2真实世界工程评估论文还设计了一个内部基准CC-Bench-V2模拟真实的工程场景包含前端开发、后端开发和长周期任务三个维度。图3CC-Bench-V2在三个维度Frontend、Backend、Long-horizon上的对比。GLM-5在所有维度上都超过了GLM-4.7和Claude Opus 4.5尤其是长周期任务的优势最明显。长周期任务Long-horizon的差距最大这恰恰是异步RL和交错思考模式联合作用的结果。真实工程中很少有一步搞定的任务大部分都需要多轮迭代——读代码、理解bug、尝试修复、运行测试、根据结果调整——GLM-5在这种场景下的表现确实更强。Agent-as-a-Judge用AI评AI图9CC-Bench-V2的评估流程。给模型一个工程Query模型Build出结果然后由另一个AgentJudge检查运行结果循环判断直到给出最终评分。这个评估方法本身也值得关注。传统的代码评估要么用单元测试太刻板要么用人工评审太贵太慢。Agent-as-a-Judge让一个评审Agent去实际运行生成的代码、检查功能是否正常、UI是否合理更接近真实场景下的评估标准。综合排行图2Artificial Analysis Intelligence Index v4.0排行榜。GLM-5综合得分50在非推理模型中排名靠前。在第三方综合排行榜上GLM-5得分50分位列前茅。考虑到这是一个非推理模型不需要像o1/o3那样做长时间推理这个成绩相当有竞争力。多语言能力图10GLM-5与GLM-4.7在翻译、指令跟随、多语言对话、世界知识、工具调用等维度的对比雷达图。GLM-5在各维度上全面超越前代。雷达图显示GLM-5在所有维度上都有提升没有明显的短板。工具调用Tool Call维度的提升尤为突出这和智能体RL训练的大量工具交互数据直接相关。 技术细节补充预训练数据处理论文提到了几个数据处理细节值得注意数据混合Data Mix代码数据的比例被特意提高因为代码数据对推理能力有正向迁移效果。这和之前的研究Llama 3、DeepSeek-V3的技术报告观点一致。去重和质量过滤使用多级去重管线MinHash → Exact Match → 语义去重严格过滤低质量和有害内容。合成数据在后训练阶段大量使用合成数据特别是针对推理和编程任务。跨阶段蒸馏Cross-Stage Distillation这是一个很实用的技巧。多阶段RL训练有个典型问题后面的阶段可能会让前面阶段学到的能力退化。比如智能体RL之后纯数学推理能力可能下降。GLM-5的解决方案是on-policy蒸馏在每个新阶段的训练中不仅用RL损失还加一个KL散度项让新模型的输出分布不要偏离前一阶段最强版本太远。这相当于给模型装了一个防遗忘刹车。训练基础设施论文没有给出特别详细的基础设施描述但从27T token的预训练规模和异步RL的设计来看训练成本相当可观。考虑到744B参数的MoE模型需要大规模张量并行和专家并行加上异步RL需要额外的环境交互集群整体算力消耗应该在数万H100级别。 与同类工作的对比特性GLM-5DeepSeek-V3/R1Claude Opus 4.5GPT-5.2架构MoE DSAMoE MLADense (推测)Dense (推测)总参数744B671B未公开未公开激活参数~40B~37B未公开未公开注意力类型DSA稀疏MLA低秩标准MHA (推测)标准MHA (推测)智能体RL专门阶段无独立阶段未公开未公开异步RL有有 (AReaL类似)未公开未公开推测解码MTP (3头共享)MTP未公开未公开开源部分模型权重开源闭源闭源GLM-5和DeepSeek-V3在架构选择上的分歧很有意思一个选了DSA一个选了MLA但都在MoE框架下工作。两者的参数规模也非常接近744B vs 671B激活参数40B vs 37B可以说是同级对手。核心差异在于后训练策略GLM-5把智能体RL作为独立训练阶段而DeepSeek系列更侧重推理RL。这直接反映在了benchmark表现上——GLM-5在智能体任务BrowseComp、SWE-bench上更强DeepSeek在竞赛编程Codeforces上更强。 我的思考与启发1. Agentic Engineering是不是真的来了从GLM-5的结果来看模型在SWE-bench上65.5%的通过率、在CC-Bench-V2长周期任务上的强劲表现确实说明大模型干工程活的能力在快速提升。但要说Agentic Engineering已经到来还为时尚早——SWE-bench里的bug大多是相对独立的真实工程中的问题往往涉及跨模块、跨仓库甚至跨团队的协作。65.5%的通过率意味着还有三分之一的case搞不定而在生产环境中搞不定的代价可能非常大。我更倾向于把当前阶段定义为Agentic Coding的黄金时代——模型已经能在有限范围内独立完成工程任务但还不具备全栈工程师那种跨领域整合、架构决策的能力。从Vibe Coding到Agentic Engineering中间还有一段路要走。2. 异步RL会成为标准范式吗GLM-5和Google的AReaL都指向同一个方向在长周期任务上同步RL的效率瓶颈是不可接受的。随着智能体任务越来越复杂从回答问题到完成项目异步RL几乎是必然选择。但异步RL也带来了更大的系统复杂度——你需要管理数据新鲜度、版本一致性、分布式通信等一系列工程问题。这可能会成为继预训练基础设施之后AI公司需要攻克的下一个基础设施难题。3. 多阶段RL的能力叠加 vs 能力冲突GLM-5用了四个阶段的后训练SFT → 推理RL → 智能体RL → 通用RL每个阶段积累不同的能力。但我们从实验结果中也看到了一些能力冲突的迹象——比如Creative Writing分数不高可能就是在RL训练过程中被牺牲的。跨阶段蒸馏是一个缓解方案但能缓解到什么程度当你要同时优化推理、编程、写作、多语言等十几种能力时多阶段RL真的能做到全都要吗这个问题目前没有明确答案。4. 给从业者的建议如果你在做AI Agent产品GLM-5展示了专门训练智能体能力的重要性。不要期望一个通用LLM直接变成好的Agent专门的智能体后训练是关键。如果你在做RL训练异步RL的工程投入是值得的特别是当你的任务需要多步环境交互时。同时要警惕Reward Hacking设计健壮的奖励函数。如果你在做模型架构DSA是一个值得关注的替代方案特别是当你需要长上下文但又想控制计算成本时。它和标准MHA兼容的KV Cache是个实际的工程优势。 总结GLM-5这篇论文的信息量很大。抛开具体的数字不谈它传递的核心信息是大模型的下一个战场在干活而不只是回答问题。从DSA降低计算成本、到异步RL提升训练效率、再到多阶段后训练叠加多维能力所有的技术选择都指向同一个目标——让模型成为一个能在真实环境中完成复杂任务的智能体。在竞争层面GLM-5证明了中国AI团队在大模型前沿研究上的竞争力——744B MoE模型在智能体任务上超越了Claude和GPT系列这在两年前是难以想象的。不过“Agentic Engineering这个词可能还有些超前。当前的智能体能力更像是一个高级实习生”——能独立完成明确的任务但面对模糊的需求和复杂的系统时还需要人类的指导和审查。但方向是对的而且进展速度超出很多人的预期。论文信息标题GLM-5: from Vibe Coding to Agentic Engineering机构智谱AI 清华大学链接https://arxiv.org/abs/2602.15763
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2420983.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!