清华团队ISSCC新作解读:用eDRAM-LUT做存内计算,如何把存储单元变成加法器?
清华团队ISSCC新作eDRAM-LUT如何重构存内计算芯片设计范式当人工智能模型的参数量突破千亿级别时传统计算架构的存储墙问题愈发凸显。数据在存储器和处理器之间的频繁搬运消耗了系统60%以上的能耗——这恰恰是存内计算技术试图颠覆的计算范式。清华大学团队在ISSCC 2024上发表的eDRAM-LUT架构通过将存储单元直接重构为计算单元实现了存储密度与计算效率的协同优化。这项技术的核心突破在于用3T eDRAM单元替代传统SRAM实现查找表功能使得每个存储单元既能保存数据又能执行乘加运算。相比需要9个晶体管的全加器方案该设计将计算单元面积缩减至传统方案的1/3同时保持完整的数字计算精度。这种存储即计算的设计哲学为后摩尔时代的芯片设计提供了新思路。1. 存内计算的技术困局与eDRAM-LUT的破局之道1.1 传统数字存内计算的面积瓶颈当前数字存内计算(DCIM)主要面临三重挑战面积效率低下采用SRAM的全加器树结构需要大量晶体管8位乘法器面积通常超过1000μm²存储密度受限6T SRAM单元面积约0.2μm²28nm工艺难以满足大模型参数存储需求模式切换代价计算与存储模式分离导致约30%的时序开销面积对比表28nm工艺 | 组件类型 | 单元面积(μm²) | 计算精度 | 刷新周期 | |----------------|---------------|----------|----------| | 6T SRAM | 0.18 | 全精度 | 无需刷新 | | 3T eDRAM(本设计)| 0.145 | 全精度 | 1.3μs | | 模拟存内计算 | 0.12 | 4-6位 | 持续刷新 |1.2 eDRAM-LUT的架构创新清华团队的解决方案包含三个关键创新点存储单元计算化将eDRAM单元配置为可编程查找表每个160b的eLAD模块可存储256个4×8b乘法结果双模动态切换通过分层解码器实现计算模式(4:16激活解码)与存储模式(8:256地址解码)的μs级切换混合阈值设计写选择器采用eHVT晶体管漏电流降低40%读端口使用LVT晶体管访问延迟减少25%实测数据显示在0.9V电压下该架构实现19.7TOPS/mm²的能效比同精度SRAM方案提升3.2倍2. 电路级创新3T eDRAM如何变身为计算单元2.1 eDRAM-LUT的物理实现核心电路设计采用三级结构存储阵列层16×10的eDRAM子阵列每个单元通过电荷存储表示1bit数据查找表逻辑层将输入激活与权重组合映射为预存乘积项的地址累加输出层通过动态锁存结构实现多周期累加// eLAD工作模式切换示例 always (mode_sel) begin case(mode_sel) MEM_MODE: decoder 8b256; // 存储模式 CIM_MODE: decoder 4b16; // 计算模式 endcase end2.2 刷新机制的创新设计针对eDRAM的易失性特性团队开发了IMREP(内存刷新和编码端口)技术双写回路径正常操作与刷新操作并行处理动态锁存在1V电压下将刷新间隔延长至1.3μs25℃时温度自适应60℃时自动调整为0.5μs刷新周期3. 架构级优势CS-DCA如何重构计算范式3.1 计算-存储双模阵列(CS-DCA)的工作机制该芯片包含16个独立Bank每个Bank具备256×160 eDRAM阵列可配置为存储块或计算单元16个eLAD模块每个支持10b输入/8b输出的MAC运算动态资源分配根据任务需求自动调整计算/存储资源比例操作模式对比 | 特性 | 计算模式 | 存储模式 | |-----------------|------------------------|------------------------| | 解码方式 | 4:16激活解码 | 8:256地址解码 | | 时序特性 | 2周期完成4×8b MAC | 单周期读写 | | 能效比 | 19.7TOPS/mm² | 5.6GB/s带宽 |3.2 实际应用中的性能表现在神经网络推理任务中该架构展现出独特优势权重固定场景将权重预编程到LUT中实现零延迟乘法动态稀疏计算输入稀疏度10%时能效提升40%混合精度支持通过LUT配置支持4/8/16位混合精度计算测试案例ResNet-18在1.0V/800MHz下实现85fps的吞吐量能效比达14.3TOPS/W4. 技术影响与未来演进路径4.1 与传统方案的对比优势与主流存内计算方案相比eDRAM-LUT实现了面积效率比SRAM方案节省50%面积计算密度单位面积MAC操作提升4倍灵活性支持动态重配置的混合精度计算# 面积效率计算示例 def area_efficiency(sram_area, edram_area): return (sram_area - edram_area)/sram_area * 100 print(f面积节省: {area_efficiency(0.18, 0.145):.1f}%)4.2 技术演进的可能性基于当前设计未来可能沿着三个方向拓展3D集成堆叠存储与逻辑层进一步提升集成度新型存储器集成与MRAM等非易失存储器结合可编程性增强支持运行时LUT内容动态更新在实际流片测试中团队发现当工作电压超过1V时计算模式下的时序约束成为主要瓶颈。这提示我们未来需要优化eHVT晶体管的驱动能力或者在架构层面引入流水线设计来突破频率限制。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2461250.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!