DeepSeek V4 重新设计了记忆

news2026/4/27 5:35:13

大家好我是苍一一个干了13年的后端开发正在探索AI编程从产品到开发的全生命周期最佳实践如果您感兴趣欢迎关注看我如何自我革命。发布概况DeepSeek V4 的 preview 版本近日公开包含 Pro 和 Flash 两条产品线权重同步上传至 Hugging Face。核心参数总参数量 1.6T激活参数 49BPro/ 13BFlash上下文窗口统一支持 1M token。这不是一次简单的窗口扩展。技术报告从头到尾在回答一个工程问题百万级上下文场景下计算、缓存、搜索、工具调用怎么协同设计才能让成本不失控。长上下文的三个账本过去两年各家模型在窗口大小上不断加码200K、1M、2M 交替出现。但实际跑过长任务 Agent 的人都清楚窗口容量只是第一步。真正制约生产使用的是三个成本计算账——每轮 prefill 的 FLOPs 能不能降下来。系统账——KV cache 存得下、调得动、能不能跨请求复用。上下文治理账——塞进窗口的信息是在帮忙还是在产生干扰。V4 把这三个维度收进同一个设计框架里处理。注意力机制的压缩策略1️⃣ CSA 与 HCA 混合架构V4 没有把 1M token 原封不动交给标准 attention。它把注意力拆成两条压缩路线CSACompressed Sparse Attention先把每 m 个 token 压成一个 KV entry再通过稀疏选择让 query 只关注 Top-k 的压缩结果。HCAHeavily Compressed Attention采用更激进的压缩率但保持稠密扫描不丢信息。两种机制交错使用避免了全量计算太贵、局部窗口会丢上下文两个极端。2️⃣ 效率提升数据1M 上下文场景下V4-Pro 相比 V3.2 的单 token FLOPs 降至 27%KV cache 降至 10%。V4-Flash 更激进分别是 10% 和 7%。训练稳定性三件套3️⃣ mHC 残差连接标准 Hyper-Connections 扩展 residual stream 后深层堆叠容易出现数值不稳定。mHC 把残差映射矩阵约束到双 stochastic 矩阵所在的流形上谱范数压在 1 以内。4️⃣ Muon 优化器V4 对多数模块使用 Muon仅在 embedding、prediction head 等位置保留 AdamW。Muon 的正交化采用 hybrid Newton-Schulz iteration配合 Nesterov trick 和 RMS rescaling。5️⃣ FP4/FP8 混合精度FP4 主要用在 MoE expert weights 和 CSA indexer 的 QK path。报告提到 top-k selector 因相关量化拿到 2 倍加速同时保留 99.7% 的 KV entry recall。Instruct 版本仓库尺寸因此大幅缩减Pro 从 1.6T 压到约 862BFlash 从 292B 压到约 158B。基座评测数据V4-Pro-Base 预训练消耗超过 32T token。几个关键 benchmarkMMLU-Pro 从 V3.2 的 65.5 提到 73.5HumanEval 从 62.8 提到 76.8LongBench-V2 从 40.2 提到 51.5。V4-Flash-Base 只用 13B 激活V3.2 的 35%多数知识任务已经追平甚至超过 V3.2-Base。KV cache 的系统化管理V4 的混合注意力会产生多种类型的 KVCSA/HCA 压缩 KV、Sliding Window 的最近窗口 KV、未压缩的尾部状态。KV cache layout 分两部分classical KV cache 负责压缩条目state cache 负责 SWA 和尾部状态。报告专门提到 on-disk KV cache storage用来消除共享前缀请求中的重复 prefill。这对 Agent 场景很关键——真实 Agent 任务中请求之间往往有大量共享前缀。推理强度的三档设计V4 Instruct 模型支持三种推理强度Non-think 适合日常问答Think High 适合复杂分析Think Max 配合长上下文用于高难度推理。这实际上是成本控制接口。中文职业任务评测DeepSeek 自建了 30 个高级中文职业任务覆盖金融、教育、法律、科技等 13 个行业。对比 Claude Opus 4.6 Max总体胜率 V4-Pro-Max 53% 对 Opus 37%。内容质量维度差距最大但指令遵循上 Opus 仍然略高。Agentic SearchV4 把搜索分成两种模式Non-think 下用传统 RAGThinking 模式下用 Agentic Search模型围绕一个问题多次调用 search 和 fetch。内部评测 Agentic Search 对 RAG 总体胜率 61.7% vs 18.3%。重点不在搜索更准而在于搜索已经被纳入模型推理过程的一部分不再是外挂检索模块。Code Agent 能力评估DeepSeek 从内部真实研发工作中收集约 200 个任务来自 50 多位工程师。85 位内部开发者的调查显示52% 认为 V4-Pro 可以作为默认主力 coding model。后训练多专家蒸馏V4 的后训练路线改为先训练多个领域专家数学、代码、Agent、指令遵循各自打磨再用 On-Policy Distillation 蒸馏到一个统一模型里。不同能力分开优化再合并基础设施代价很重。产品线与接入建议Pro 适合高价值、强推理、强知识的任务。Flash 适合高频、低成本、可批量处理的场景。实际接入时按任务做路由比全量换 Pro 更稳。参考资源https://huggingface.co/collections/deepseek-ai/deepseek-v4如果嫌文章太长、怕后面走丢可以关注下面的ima知识号让这篇文章成为你的知识顾问随时随地等候你的提问。知识号中内容会以笔记形式分享可以根据大家反馈和实测情况实时更新保证最新方案的稳定、可用。【ima知识库】苍一AI编程

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2558502.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！