PIM架构如何优化LLM推理中的内存墙问题
1. PIM架构核心原理与LLM推理瓶颈在传统冯·诺依曼架构中数据需要在处理器和内存之间频繁搬运这种内存墙问题在大型语言模型(LLM)推理场景中尤为突出。处理内存计算(PIM)技术的革命性在于将计算单元直接嵌入内存控制器附近通过近数据计算打破这一瓶颈。其物理实现通常采用以下两种方式存内计算(Computing-In-Memory)在DRAM阵列内部集成计算逻辑典型代表如UPMEM的DRAM-PIM芯片近存计算(Near-Memory Computing)在内存控制器或HBM基板上部署计算单元如三星的HBM-PIM对于Transformer架构的LLM推理计算模式呈现明显的两极分化全连接层(FC)计算密集型算术强度高(100 FLOP/byte)注意力层(Attention)内存密集型算术强度低(1 FLOP/byte)这种特性使得传统同构计算架构难以同时高效处理两类计算任务。我们的实验数据显示在GPT-3 175B模型推理中FC层占用了72%的计算时间却只消耗35%的内存带宽而Attention层正好相反。2. DRAM数据重用技术深度解析2.1 基本工作原理DRAM数据重用的核心思想是单次访问多次计算。当DRAM行被激活后其数据会暂存在行缓冲器(row buffer)中。传统架构中这些数据仅使用一次就被丢弃而PIM架构可以通过以下方式实现重用寄存器文件缓存在PIM计算单元中增加寄存器堆(如32×512bit)数据流编排将计算任务拆分为可复用数据块的粒度计算调度确保连续计算任务需要相同的数据块以矩阵乘为例当计算YWX时传统方式每个W元素需从DRAM读取一次重用方式W的行向量读取后可在计算多个X列向量时复用2.2 能耗优化效果我们在HBM2设备上的实测数据表明(图7)无重用时DRAM访问能耗占比达67.3%64次重用时DRAM能耗降至33.1%总能耗下降从4.2μJ/op降至1.8μJ/op这源于DRAM访问的两个特性激活能耗每次行激活约消耗1.2nJ静态功耗保持行打开状态仅需0.05nJ/cycle数据重用公式推导E_total E_access E_compute (E_activate E_retention) N × E_op其中N为重用次数当N→∞时E_access/N→02.3 硬件实现方案在HBM-PIM中实现数据重用需要三个关键设计子阵列划分将每个bank划分为16个sub-array支持并行访问缓冲器扩展将row buffer从2KB扩展到8KB数据流控制器动态调度计算顺序最大化数据局部性3. 并行计算架构设计3.1 FPU配置策略我们提出分级FPU配置方案| 配置类型 | FPU/Bank | 适用场景 | 峰值算力 | 能效比 | |----------|----------|----------------|----------|--------| | 4P1B | 4 | FC层 | 512GFLOPS| 83TOPS/W| | 2P1B | 2 | 混合负载 | 256GFLOPS| 76TOPS/W| | 1P2B | 0.5 | Attention层 | 64GFLOPS | 92TOPS/W|选择依据来自Roofline模型分析FC层位于计算限制区需更多FPUAttention层位于内存限制区FPU利用率低3.2 面积与功耗约束在22nm工艺下单个HBM die面积约束121mm²单个bank面积0.83mm²(包含存储阵列和外围电路)FPU面积0.1025mm²(支持FP16/INT8)配置计算公式m × (n × A_FPU A_bank) ≤ A_max对于4P1B配置m × (4×0.1025 0.83) ≤ 121 ⇒ m ≤ 97实际采用96 banks/die保留5%面积余量用于互连布线。3.3 动态功耗管理通过DVFS实现三级功耗调控低频模式(333MHz)处理Attention层标频模式(666MHz)中等负载高频模式(1GHz)突发计算需求实测功耗数据(图7c)4P1B64重用82W ( HBM3的116W预算)1P1B无重用超标至135W4. 异构PIM架构实现4.1 FC-PIM设计针对全连接层的优化计算单元4个FPU/bank支持FMA指令数据流权重矩阵分块映射带宽20.8GB/s per bank关键创新稀疏计算支持对MoE模型中的专家权重动态激活脉动阵列32×32 MAC阵列利用率达78%4.2 Attn-PIM设计针对注意力层的特性计算单元1个FPU/2banks数据布局K^T矩阵列向分割V矩阵行向分割专用指令Softmax硬件加速器4.3 系统集成互连方案选择| 组件 | 互连类型 | 带宽要求 | 延迟 | 协议栈 | |--------------|------------|----------|--------|----------| | FC-PIM | NVLink 3.0 | 900GB/s | 90ns | 自定义 | | Attn-PIM | CXL 2.0 | 64GB/s | 150ns | PCIe兼容 | | Host通信 | Infinity | 200GB/s | 500ns | Ethernet |实测通信开销FC层参数传输占总延迟12%Attention层QKV传输仅占3%5. 实测性能分析5.1 端到端加速比测试环境模型LLaMA-65B/GPT-3 175B数据集Dolly creative-writing对比基线A100AttAcc结果(图8)配置加速比能效提升批大小6411.1x3.4x推测长度48.7x3.1x混合并行9.8x3.2x5.2 组件级分析延迟分解(图12)FC-PIM计算占总时间58%Attn-PIM计算19%通信23%瓶颈分析FC层计算受限受FPU数量影响大Attention层受bank冲突影响命中率92%6. 实际部署考量6.1 编译器优化需要特定的编译器支持#pragma pim_schedule kernel_typefc for (int i0; inum_blocks; i) { pim_gemm(W_blocks[i], X, Y); } #pragma pim_schedule kernel_typeattn for (int head0; headnum_heads; head) { pim_attention(Q, K[head], V[head]); }6.2 温度管理实测热分布计算密集区最高85°C存储密集区72°C 解决方案动态热调度迁移热点计算3D封装硅中介层散热6.3 容错机制采用ECCCRC双重保护存储阵列SECDED ECC计算数据流CRC-32校验 实测可靠性FIT率 0.1%错误恢复时间10μs7. 扩展应用场景该架构同样适用于推荐系统稀疏全连接层科学计算稀疏矩阵运算计算机视觉Transformer模型在ResNet-50上的测试显示吞吐量4200 images/sec能效比3.8x优于GPU方案
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2608820.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!