DeepSeek-V4-Pro模型配置解读

news2026/4/27 7:26:49
参考:https://modelscope.cn/models/deepseek-ai/DeepSeek-V4-Pro/file/view/master/config.json?status1一、基础模型标识architectures: [DeepseekV4ForCausalLM], model_type: deepseek_v4, transformers_version: 4.57.1,architectures模型类名因果语言模型自回归生成如续写、对话model_type模型官方类型 DeepSeek V4transformers_version兼容的 HuggingFace 库版本二、词表与特殊令牌vocab_size: 129280, bos_token_id: 0, eos_token_id: 1, tie_word_embeddings: false,vocab_size词表大小129280bos/eos_token_id开始/结束令牌IDtie_word_embeddings不共享输入/输出词嵌入矩阵大模型常用提升效果三、模型尺寸超大规模hidden_size: 7168, # 隐藏层维度 num_hidden_layers: 61, # 总网络层数 num_attention_heads: 128, # 注意力头数 head_dim: 512, # 每个注意力头维度 max_position_embeddings: 1048576, # 最大上下文长度 1048576✅核心结论上下文窗口1048576 tokens100K超大参数量 超长上下文属于顶尖开源大模型四、MoE 稀疏专家架构最核心特性DeepSeek V4 是稀疏混合专家模型MoE不是稠密模型n_routed_experts: 384, # 总专家数384个 n_shared_experts:1, # 共享专家数1个 num_experts_per_tok:6, # 每个token 激活6个专家 moe_intermediate_size:3072, # 专家中间层维度 routed_scaling_factor:2.5, # 路由激活缩放因子 norm_topk_prob:true, # 归一化TopK概率 topk_method:noaux_tc, # 专家路由算法✅通俗解释模型有384 个专家网络但每个 token 只调用 6 个推理/训练算力成本远低于同等参数量稠密模型性能更强业界顶尖的 MoE 设计五、注意力机制配置attention_bias: false, attention_dropout: 0.0, num_key_value_heads: 1, # GQA 分组查询注意力 qk_rope_head_dim: 64, sliding_window: 128, # 滑动窗口注意力 use_cache: true, # 推理缓存KV加速生成GQA1个KV头共享给128个Q头大幅节省显存sliding_window局部窗口注意力优化长文本效率use_cache开启推理缓存生成速度更快六、激活函数与归一化hidden_act: silu, rms_norm_eps: 1e-06, swiglu_limit: 10.0,激活函数SiLU SwiGLU大模型标配归一化RMSNormLLaMA 系列标准七、超长上下文扩展YaRNrope_theta: 10000, rope_scaling:{ type:yarn, factor:16, original_max_position_embeddings:65536, beta_fast:32, beta_slow:1 }位置编码RoPE YaRN把上下文从65536 扩展到 104857616倍业界最先进的长上下文无损扩展技术八、FP8 量化显存优化torch_dtype: bfloat16, quantization_config:{ quant_method:fp8, activation_scheme:dynamic, fmt:e4m3, scale_fmt:ue8m0, weight_block_size:[128,128] }✅关键作用训练/推理精度BF16 FP8显存减少 50%速度提升精度几乎无损工业级部署标配九、LoRA 低秩适配微调q_lora_rank: 1536, o_lora_rank: 1024, o_groups: 16,支持超大秩 LoRA 微调适合企业/科研做高质量领域微调十、哈希检索与索引增强DeepSeek 自研技术hc_eps: 1e-06, hc_mult:4, hc_sinkhorn_iters:20, index_head_dim:128, index_n_heads:64, index_topk:1024, num_hash_layers:3, scoring_func:sqrtsoftplus,这是DeepSeek 自研的检索增强架构用哈希检索加速长文本、知识库召回提升长文本理解、事实准确性属于模型核心黑科技十一、压缩率配置上下文压缩compress_rope_theta: 160000, compress_ratios: [...]对不同层使用不同压缩率进一步降低超长上下文的显存/算力消耗整体总结这是DeepSeek V4 超大规模稀疏 MoE 大模型的完整配置384 个专家每 token 激活 6 个1048576 超长上下文YaRN 扩展FP8 量化 GQA 注意力高效部署支持LoRA 微调 哈希检索增强属于当前开源顶尖的长文本大模型附(flash与pro对比)分类参数项小参数量DeepSeek-V4-Flash大参数量DeepSeek-V4-Pro差异说明️ 模型基础模型架构DeepseekV4ForCausalLMDeepseekV4ForCausalLM完全一致hidden_size隐层维度40967168Pro 容量大幅提升num_hidden_layers总层数43 层61 层Pro 更深、学习能力更强 注意力机制num_attention_heads注意力头64128Pro 翻倍细粒度理解更强head_dim单头维度512512相同num_key_value_headsKV头11相同GQA架构sliding_window滑动窗口128128相同 MoE 混合专家n_routed_experts总专家数256384Pro 专家数量多50%n_shared_experts共享专家11相同num_experts_per_tok每token激活专家66相同稀疏计算moe_intermediate_size专家中间层20483072Pro 单个专家能力更强routed_scaling_factor1.52.5Pro 适配更大专家规模 哈希检索增强index_topk检索数量5121024Pro 长文本匹配更精准num_hash_layers哈希层数33相同️ LoRA 微调q_lora_rank10241536Pro 微调表达能力更强o_lora_rank10241024相同o_groups816Pro 分组更细 超长上下文max_position_embeddings1048576104万1048576104万均支持百万上下文rope_scaling位置扩展YaRN ×16YaRN ×16相同compress_ratios压缩策略浅层0压缩中间4/128首层128倍压缩全程压缩Pro 压缩更强、推理更快⚡ 部署优化quantization_configFP8 动态量化FP8 动态量化相同torch_dtypebfloat16bfloat16相同 词表vocab_size129280129280完全一致

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2558754.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…