【Deepseek基础篇】--v3基本架构

news2025/7/30 21:19:34

目录

MOE参数

1.基本架构

1.1. Multi-Head Latent Attention多头潜在注意力

1.2.无辅助损失负载均衡的 DeepSeekMoE

2.多标记预测

2.1. MTP 模块


论文地址:https://arxiv.org/pdf/2412.19437

DeepSeek-V3 是一款采用 Mixture-of-Experts(MoE)架构的大型语言模型,其核心参数配置如下:【大模型理论篇】--Mixture of Experts架构-CSDN博客

  • 模型层数:61 层

  • 隐藏层维度:7168

  • 前馈网络维度:18432

  • 注意力头数:128

  • 词汇表大小:129280

  • 最大位置嵌入:163840

    该模型通过精细的架构设计,实现了在计算效率和性能上的平衡。

MOE参数

参数描述
MoE 层频率1--每一层都是 MoE 层
共享专家数1
路由专家数256
每个 Token 选择的专家数8
MoE 专家前馈网络维度2048
总 MoE 层数58 层(第 4 层至第 61 层)
每层专家总数257 个(1 个共享专家 + 256 个路由专家)
模型总专家数14,906 个(257 个专家 × 58 层)
每层活跃专家9 个(1 个共享专家 + 8 个路由专家)
整个模型的活跃专家522 个(9 个活跃专家 × 58 层)
计算效率高每个 Token 只需计算少量专家,降低了计算成本
参数利用率高总参数量 6,710 亿,实际计算的激活参数仅约 370 亿
专家专精化路由机制使得专家专注于特定特征,提高模型性能
路由专家(Routed Experts)
- 选择性激活按需激活,利用门控机制(如基于亲和度分数的 Top-K 选择)决定哪些专家处理当前 Token
- 专精化处理每个路由专家擅长处理特定类型的输入或特征,实现专精化
- 稀疏计算仅激活部分专家,提高计算效率
- 负载均衡确保不同专家在不同输入上均衡被激活,避免过载
共享专家(Shared Experts)
- 全局参与始终参与所有输入的处理,贡献通用知识
- 促进泛化捕捉数据中的普遍模式,减少过拟合风险
- 提高稳定性提供稳定的基础,即使路由机制不完美时,也能有可靠的输出

1.基本架构

        DeepSeek-V3模型的架构,包括

  1. 基本架构、
  2. 多头潜在注意力机制(MLA)、
  3. DeepSeekMoE
  4. 多token预测(MTP)训练目标。

        DeepSeek-V3的架构设计在高效推理和经济高效的训练之间取得了良好的平衡,并通过引入辅助损失免费负载均衡策略和多token预测训练目标,进一步提升了模型的性能。

        DeepSeek-V3模型架构的核心特点是:采用Multi-head Latent Attention (MLA) 以提高推理效率,采用DeepSeekMoE以降低训练成本。此外,还引入了多token预测(MTP)训练目标,以提升模型性能。

1.1. Multi-Head Latent Attention多头潜在注意力

  • >>核心思想:通过低秩联合压缩注意力键和值来减少推理过程中的键值缓存 (KV cache)。
  • >> 具体方法:对注意力键和值进行低秩压缩,生成压缩的潜在向量 ()。 对注意力查询也进行低秩压缩,生成压缩的潜在向量 ()。 利用旋转位置编码 (RoPE) 生成解耦的键和查询 (, )。最终将查询、键和值结合起来生成最终的注意力输出 ()。
  • >> 优势:仅需缓存压缩的潜在向量和解耦的键/查询,显著减少了KV缓存,同时保持了与标准多头注意力 (MHA) 相当的性能。

具体参数:

 

对 于 注 意 力 查 询 , 我 们 也 执 行 低 秩 压 缩 , 这 可 以 在 训 练 期 间 减 少 激 活 内 存: 

最 终 , 注 意 力 查 询  、 键 () 和 值 ( ) 被 组 合 起 来 以 生 成 最 终 的 注 意 力 输 出 uT :

1.2.无辅助损失负载均衡的 DeepSeekMoE

        对于前馈网络(FFNs),DeepSeek-V3 采用 DeepSeekMoE 架构(Dai et al., 2024)。与 GShard(Lepikhin et al., 2021)等传统 MoE 架构相比,DeepSeekMoE 使用更细粒度的专家(experts),并将部分专家隔离为共享专家。设  为第 𝑡 个 token 的 FFN 输入,我们计算其 FFN 输出  如下:

 

无 辅 助 损 失 负 载 均 衡:

对于 MoE 模型,专家负载的不均衡会导致路由崩溃(Shazeer et al., 2017),并在专家并行的场景中降低计算效率。传统的解决方案通常依赖于辅助损失(Fedus et al., 2021;Lepikhin et al., 2021)来避免负载不均衡。然而,过大的辅助损失会损害模型的性能(Wang et al., 2024a)。为了在负载均衡和模型性能之间实现更好的平衡,我们开创了一种无辅助损失的负载均衡策略(Wang et al., 2024a),以确保负载均衡。具体来说,我们为每个专家引入一个偏置项 ,并将其添加到对应的亲和度分数  中,以确定 top-K 路由:

注意,偏置项仅用于路由。门控值(gating value),即将与 FFN 输出相乘的值,仍然来自于原始的亲和度分数 。 在训练过程中,我们会持续监控每个训练步骤中整个批次的专家负载。在每个步骤结束时,如果对应的专家超载,我们将偏置项减少 𝛾;如果对应的专家负载不足,我们将其增加 𝛾,其中 𝛾 是一个超参数,称为偏置更新速度(bias update speed)。通过这种动态调整,DeepSeek-V3 在训练过程中保持专家负载平衡,并且相比于仅通过纯辅助损失来鼓励负载平衡的模型,能够实现更好的性能。 

 互 补 序 列 级 辅 助 损 失:尽管 DeepSeek-V3 主要依赖于无辅助损失策略来实现负载平衡,但为了防止单个序列内部出现极端的不平衡,我们还使用了一个互补的序列级平衡损失:

  1. 平衡因子 𝛼 是一个超参数,对于 DeepSeek-V3 来说将赋予一个极小的值;
  2. 1(·) 表示指示函数;
  3. 𝑇 表示序列中的标记数。序列级平衡损失鼓励每个序列的专家负载保持平衡。

 多 标 记 预 测 ( MTP) 实 现 方 式 的 示 意 图 。 在 每 个 深 度 , 我 们 为 每 个 标 记 的 预 测 保 留 完 整 的 因 果 链 。

节点限制路由:与 DeepSeek-V2 使用的设备限制路由类似,DeepSeek-V3 也使用了一种受限路由机制,以限制训练过程中的通信成本。简而言之,我们确保每个标记最多只会发送到 𝑀 个节点,这些节点是根据分布在每个节点上的专家的前  个亲和度分数的总和来选择的。在这个约束下,我们的 MoE 训练框架几乎可以实现完全的计算-通信重叠。

无Token丢弃:由于有效的负载平衡策略,DeepSeek-V3 在整个训练过程中保持良好的负载平衡。因此,DeepSeek-V3 在训练期间不会丢弃任何Token。此外,我们还实施了特定的部署策略,以确保推理过程中的负载平衡,因此 DeepSeek-V3 在推理过程中也不会丢弃Token。


2.多标记预测

        受到 Gloeckle 等人(2024)的启发,我们为 DeepSeek-V3 设定了一个多标记预测(MTP)目标,将预测范围扩展到每个位置的多个未来标记。一方面,MTP 目标可以密集化训练信号,可能提高数据效率。另一方面,MTP 可以使模型预先规划其表示,以便更好地预测未来的标记。图 3 展示了我们的 MTP 实现。与 Gloeckle 等人(2024)通过独立输出头并行预测 𝐷 个额外标记不同,我们依次预测额外的标记,并在每个预测深度保持完整的因果链条。在本节中,我们介绍了 MTP 实现的细节。

2.1. MTP 模块

MTP 实现使用 𝐷 个顺序模块来预测 𝐷 个额外的标记。第 𝑘 个 MTP 模块由一个共享嵌入层 Emb(·)、一个共享输出头 OutHead(·)、一个 Transformer 块 TRM𝑘 (·) 和一个投影矩阵 𝑀𝑘 ∈ 组成。对于第 𝑖 个输入标记 ,在第 𝑘 个预测深度,我们首先将第 𝑖 个标记在第 (𝑘−1) 深度的表示  ∈  与第 (𝑖+𝑘) 个标记的嵌入结合,并进行线性投影:

其中,[·; ·] 表示拼接操作。特别地,当 𝑘 = 1 时,h^{k-1}_{i}指的是由主模型给出的表示。需要注意的是,对于每个 MTP 模块,它的嵌入层与主模型共享。组合后的 h'^{k}_{i} 作为 Transformer 块第 𝑘 深度的输入,以生成当前深度的输出表示 h^{k}_{i}: 

其中,𝑇 表示输入序列的长度,𝑖:𝑗 表示切片操作(包括左右边界)。最后,以 h^{k}_{i} 作为输入,共享的输出头将计算第 𝑘 个附加预测 token 的概率分布 p^{k}_{i+1+k} ∈ \mathbb{R}^{V},其中 𝑉 是词汇表的大小:  

输出头 OutHead(·) 将表示映射到 logits,并随后应用 Softmax(·) 函数来计算第 𝑘 个附加 token 的预测概率。同时,对于每个 MTP 模块,它的输出头与主模型共享。我们保持预测的因果链的原则与 EAGLE (Li et al., 2024b) 类似,但它的主要目标是推测解码 (Leviathan et al., 2023; Xia et al., 2023),而我们利用 MTP 来改进训练。

        MTP 训练目标。在每个预测深度,我们计算交叉熵损失

其中,𝑇 表示输入序列的长度,t_{i} 表示第 𝑖 个位置的真实标记,p^{k}_{i}[t_{i}] 表示给定 𝑘-th MTP 模块的预测概率。最后,我们计算所有深度的 MTP 损失的平均值,并将其乘以一个权重因子 𝜆,得到最终的 MTP 损失 LMTP,该损失作为 DeepSeek-V3 的附加训练目标:

 MTP 在推理中的应用。我们的 MTP 策略主要旨在提升主模型的性能,因此,在推理过程中,我们可以直接丢弃 MTP 模块,主模型可以独立且正常地运行。此外,我们还可以将这些 MTP 模块重新用于推测解码,以进一步提升生成的延迟表现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2343566.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

centos7使用yum快速安装最新版本Jenkins-2.462.3

Jenkins支持多种安装方式:yum安装、war包安装、Docker安装等。 官方下载地址:https://www.jenkins.io/zh/download 本次实验使用yum方式安装Jenkins LTS长期支持版,版本为 2.462.3。 一、Jenkins基础环境的安装与配置 1.1:基本…

【vue】【element-plus】 el-date-picker使用cell-class-name进行标记,type=year不生效解决方法

typedete&#xff0c;自定义cell-class-name打标记效果如下&#xff1a; 相关代码&#xff1a; <el-date-pickerv-model"date":clearable"false":editable"false":cell-class-name"cellClassName"type"date"format&quo…

c++11新特性随笔

1.统一初始化特性 c98中不支持花括号进行初始化&#xff0c;编译时会报错&#xff0c;在11当中初始化可以通过{}括号进行统一初始化。 c98编译报错 c11: #include <iostream> #include <set> #include <string> #include <vector>int main() {std:…

C++23 中 constexpr 的重要改动

文章目录 1. constexpr 函数中使用非字面量变量、标号和 goto (P2242R3)示例代码 2. 允许 constexpr 函数中的常量表达式中使用 static 和 thread_local 变量 (P2647R1)示例代码 3. constexpr 函数的返回类型和形参类型不必为字面类型 (P2448R2)示例代码 4. 不存在满足核心常量…

全面解析React内存泄漏:原因、解决方案与最佳实践

在开发React应用时&#xff0c;内存泄漏是一个常见但容易被忽视的问题。如果处理不当&#xff0c;它会导致应用性能下降、卡顿甚至崩溃。由于React的组件化特性&#xff0c;许多开发者可能没有意识到某些操作&#xff08;如事件监听、异步请求、定时器等&#xff09;在组件卸载…

【FreeRTOS】事件标志组

文章目录 1 简介1.1事件标志1.2事件组 2事件标志组API2.1创建动态创建静态创建 2.2 删除事件标志组2.3 等待事件标志位2.4 设置事件标志位在任务中在中断中 2.5 清除事件标志位在任务中在中断中 2.6 获取事件组中的事件标志位在任务中在中断中 2.7 函数xEventGroupSync 3 事件标…

超级扩音器手机版:随时随地,大声说话

在日常生活中&#xff0c;我们常常会遇到手机音量太小的问题&#xff0c;尤其是在嘈杂的环境中&#xff0c;如KTV、派对或户外活动时&#xff0c;手机自带的音量往往难以满足需求。今天&#xff0c;我们要介绍的 超级扩音器手机版&#xff0c;就是这样一款由上海聚告德业文化发…

【数据可视化-27】全球网络安全威胁数据可视化分析(2015-2024)

&#x1f9d1; 博主简介&#xff1a;曾任某智慧城市类企业算法总监&#xff0c;目前在美国市场的物流公司从事高级算法工程师一职&#xff0c;深耕人工智能领域&#xff0c;精通python数据挖掘、可视化、机器学习等&#xff0c;发表过AI相关的专利并多次在AI类比赛中获奖。CSDN…

【6G 开发】NV NGC

配置 生成密钥 API Keys 生成您自己的 API 密钥&#xff0c;以便通过 Docker 客户端或通过 NGC CLI 使用 Secrets Manager、NGC Catalog 和 Private Registry 的 NGC 服务 以下个人 API 密钥已成功生成&#xff0c;可供此组织使用。这是唯一一次显示您的密钥。 请妥善保管您的…

SIEMENS PLC程序解读 -Serialize(序列化)SCATTER_BLK(数据分散)

1、程序数据 第12个字节 PI 2、程序数据 第16个字节 PI 3、程序数据 第76个字节 PO 4、程序代码 2、程序解读 图中代码为 PLC 梯形图&#xff0c;主要包含以下指令及功能&#xff1a; Serialize&#xff08;序列化&#xff09;&#xff1a; 将 SRC_VARIABLE&#xff…

宁德时代25年时代长安动力电池社招入职测评SHL题库Verify测评语言理解数字推理真题

测试分为语言和数字两部分&#xff0c;测试时间各为17分钟&#xff0c;测试正式开始后不能中断或暂停

【硬核解析:基于Python与SAE J1939-71协议的重型汽车CAN报文解析工具开发实战】

引言&#xff1a;重型汽车CAN总线的数据价值与挑战 随着汽车电子化程度的提升&#xff0c;控制器局域网&#xff08;CAN总线&#xff09;已成为重型汽车的核心通信网络。不同控制单元&#xff08;ECU&#xff09;通过CAN总线实时交互海量报文数据&#xff0c;这些数据隐藏着车…

Uniapp 自定义 Tabbar 实现教程

Uniapp 自定义 Tabbar 实现教程 1. 简介2. 实现步骤2.1 创建自定义 Tabbar 组件2.2 配置 pages.json2.3 在 App.vue 中引入组件 3. 实现过程中的关键点3.1 路由映射3.2 样式设计3.3 图标处理 4. 常见问题及解决方案4.1 页面跳转问题4.2 样式适配问题4.3 性能优化 5. 扩展功能5.…

记录一次使用面向对象的C语言封装步进电机驱动

简介 (2025/4/21) 本库对目前仅针对TB6600驱动下的42步进电机的基础功能进行了一定的封装, 也是我初次尝试以面向对象的思想去编写嵌入式代码, 和直流电机的驱动步骤相似在调用stepmotor_attach()函数和stepmotor_init()函数之后仅通过结构体数组stepm然后指定枚举变量中的id即…

Spark-streaming核心编程

1.导入依赖‌&#xff1a; <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.12</artifactId> <version>3.0.0</version> </dependency> 2.编写代码‌&#xff1a; 创建Sp…

vue3+TS+echarts 折线图

需要实现的效果如下 <script setup lang"ts" name"RepsSingleLineChart">import * as echarts from echartsimport { getInitecharts } from /utils/echartimport type { EChartsOption } from echarts// 定义 props 类型interface Props {id: strin…

小火电视桌面TV版下载-小火桌面纯净版下载-官方历史版本安装包

别再费心地寻找小火桌面的官方历史版本安装包啦&#xff0c;试试乐看家桌面吧&#xff0c;它作为纯净版本的第三方桌面&#xff0c;具有诸多优点。 界面简洁纯净&#xff1a;乐看家桌面设计简洁流畅&#xff0c;页面简洁、纯净无广告&#xff0c;为用户打造了一个干净的电视操…

androidstudio安装配置

B站配置视频AndroidStudio安装配置教程&#xff08;最新版本教程&#xff09;3分钟搞定 快速安装使用_哔哩哔哩_bilibili 1、环境变量 D:\AndroidSdk ANDROID_HOME ANDROID_SDK_HOME 2、新建 3、配置 distributionUrlhttps://mirrors.cloud.tencent.com/gradle/gradle-8.11.1-…

《AI大模型趣味实战》基于RAG向量数据库的知识库AI问答助手设计与实现

基于RAG向量数据库的知识库AI问答助手设计与实现 引言 随着大语言模型&#xff08;LLM&#xff09;技术的快速发展&#xff0c;构建本地知识库AI问答助手已成为许多企业级应用的需求。本研究报告将详细介绍如何基于FLASK开发一个使用本地OLLAMA大模型底座的知识库AI问答助手&…

BeeWorks Meet:私有化部署视频会议的高效选择

在数字化时代&#xff0c;视频会议已成为企业沟通协作的重要工具。然而&#xff0c;对于金融、政务、医疗等对数据安全和隐私保护要求极高的行业来说&#xff0c;传统的公有云视频会议解决方案往往难以满足其严格的安全标准。此时&#xff0c;BeeWorks Meet 私有化部署视频会议…