DeepSeek开源周Day2：DeepEP - 专为 MoE 模型设计的超高效 GPU 通信库

news2025/7/19 12:05:48

项目地址：https://github.com/deepseek-ai/DeepEP
开源日历：2025-02-24起每日9AM(北京时间)更新，持续五天 (2/5)！

引言

在大模型训练中，混合专家模型（Mixture-of-Experts, MoE）因其动态路由和高效计算特性备受关注。然而，随着模型规模的扩大，GPU 间的数据通信成为关键瓶颈——尤其是在专家并行（Expert Parallelism, EP）场景中，数据需要在多个 GPU 间高效分发与合并。传统通信库往往难以兼顾高吞吐与低延迟，而 DeepEP 的诞生正是为了解决这一难题。

核心功能与设计理念

1. 什么是 DeepEP？

DeepEP 是由 DeepSeek 开源的高性能通信库，专为 MoE/EP 场景设计。其核心目标是通过优化 GPU 间数据传输，实现：

训练加速：提升多 GPU 协作效率
推理降延迟：支持实时推理任务（如 ChatGPT）
资源高效利用：减少 GPU 闲置时间

2. 技术亮点解析

（1）域间带宽优化

针对 MoE 的非对称通信场景（如 NVLink 域到 RDMA 域）深度优化：

NVLink（节点内 GPU 互联）：带宽达 160 GB/s
RDMA（跨节点 GPU 互联）：带宽达 50 GB/s
通过定制内核实现数据转发路径优化，避免带宽浪费。

（2）低精度计算支持

FP8 分发 + BF16 合并：在保证精度的同时减少 50% 显存占用
动态精度切换：适应不同阶段的计算需求

（3）通信-计算重叠

通过 Hook 机制实现：

前向传播时后台预加载数据
反向传播时异步传输梯度
关键优势：零额外 SM 资源占用，最大化 GPU 利用率

性能实测

测试环境

硬件：NVIDIA H800 GPU + CX7 InfiniBand 400Gb/s RDMA 网卡
软件：CUDA 12.3 + PyTorch 2.1

性能数据

常规模式（训练/预填充推理）

场景	通信类型	吞吐量
节点内（8卡）	NVLink	153 GB/s
跨节点（64卡）	RDMA	46 GB/s

低延迟模式（推理生成）

专家数	延迟	RDMA 带宽
8	163 μs	46 GB/s
128	192 μs	39 GB/s

注：在 128 token 批处理下，延迟仅增加 18%，展现极强的扩展性

架构设计与关键技术

1. 分层通信模型

分发阶段：通过原子操作动态分配 token 到专家
组合阶段：基于元数据快速聚合结果

2. 推理优化黑科技

def low_latency_dispatch(hidden_states, topk_idx):
    # 后台启动 RDMA 传输
    recv_hidden, hook = _buffer.low_latency_dispatch(...)
    # 立即返回控制权，计算与传输并行
    return recv_hidden, hook

通过纯 RDMA 传输 + 双缓冲机制，实现：

163 μs 端到端延迟
零 CUDA 核占用

快速入门指南

1. 环境要求

组件	版本要求
GPU	Hopper 架构（H100/H800）
Python	3.8+
CUDA	12.3+
PyTorch	2.1+
网络	NVLink + RDMA

CUDA安装指南
GPU-pytorch 安装指南

2. 安装步骤

# 安装定制版 NVSHMEM
git clone https://github.com/NVIDIA/nvshmem
cd nvshmem && git apply DeepEP/third-party/nvshmem.patch
make -j 16 && make install

# 安装 DeepEP
NVSHMEM_DIR=/path/to/nvshmem python setup.py install

3. 基础使用示例

import deep_ep

# 初始化通信缓冲区
buffer = deep_ep.Buffer(
    group=dist.group.WORLD,
    num_nvl_bytes=1e9,  # NVLink 缓冲区 1GB
    num_rdma_bytes=2e9   # RDMA 缓冲区 2GB
)

# MoE 分发数据
recv_data, metadata = buffer.dispatch(
    input_tensor, 
    expert_indices, 
    num_experts=64
)

# 执行专家计算
expert_output = experts[metadata.expert_id](recv_data)

# 合并结果
combined_result = buffer.combine(expert_output)

高级调优建议

1. 网络配置优化

参数	推荐值	说明
NVSHMEM_IB_SL	1-3	隔离不同类型流量
自适应路由	高负载时启用	避免网络拥塞
拥塞控制	关闭	DeepSeek 实测无显著影响

2. SM 资源分配

# 设置 24 个 SM 专供通信
Buffer.set_num_sms(24)

通过动态调整 SM 数量，平衡计算与通信资源。

应用场景与案例

1. 千卡级训练加速

在 2048 卡集群中：

线性扩展效率 >92%
训练吞吐量提升 3.8 倍（对比 Megatron-LM）

2. 实时推理服务

70B 参数 MoE 模型
单请求延迟 <200 ms（端到端）
吞吐量 1200 token/s

注意事项

硬件限制：目前仅支持 Hopper 架构 GPU
PTX 指令：使用未公开指令 ld.global.nc.L1::no_allocate 实现极致性能，可通过 DISABLE_AGGRESSIVE_PTX_INSTRS=1 禁用
缓冲区管理：低延迟模式需预留更大 RDMA 缓冲区

开源生态

GitHub Star：开源 3 小时即破 2k
生态整合：vLLM 等框架正在适配
许可证：核心代码 MIT 许可，NVSHMEM 部分遵循 NVIDIA SLA

参考引用：

Github - DeepEP
开源周第二天 - DeepEP
DeepEP 详解，GPU压榨计划启动！
DeepSeek开源周第二天-DeepEP
DeepSeek最新开源DeepEP技术深入分析

专业术语解释

混合专家模型（Mixture-of-Experts, MoE）
一种将复杂任务分配给多个专家模块进行处理的模型架构。类似于一个大型项目被分解给多个专业团队分别完成。
专家并行（Expert Parallelism, EP）
一种在模型训练中多个专家模块同时进行计算的模式。类似于多个工作小组同时开展不同部分的工作。
非对称通信场景
指通信双方在数据传输量、传输方向或性能要求等方面存在差异的情况。类似于两人交流时一方说得多另一方说得少。
NVLink
用于节点内 GPU 互联的高速通信技术，具有高带宽。类似于房间内不同家具之间的快速通道。
RDMA
一种跨节点 GPU 互联的通信技术。类似于不同房间之间的快捷通道。
数据转发路径优化
对数据传输的路径进行改进以提高效率和减少浪费。类似于优化物流运输的路线。
FP8 分发 + BF16 合并
数据分发和合并时采用的不同精度格式，以平衡精度和资源占用。类似于根据物品的重要性选择不同大小的盒子来装。
通信-计算重叠
让数据通信和计算过程同时进行，以提高效率。类似于一边做饭一边收拾厨房。
分层通信模型
将通信过程分为不同层次进行处理和优化的模型。类似于把一个大工程分为不同的施工阶段。
双缓冲机制
使用两个缓冲区交替工作来提高数据传输效率。类似于两个工人交替工作，一个工作时另一个准备。
SM 资源
指 GPU 中的流多处理器（Streaming Multiprocessor）相关的资源。类似于工厂里的生产车间资源。