ISSCC 2024上的黑科技:用eDRAM做查找表,这个存内计算芯片如何兼顾精度与能效?
ISSCC 2024黑科技eDRAM-LUT如何重塑存内计算的精度与能效平衡在芯片设计领域存内计算Computing-in-Memory, CIM正经历一场从模拟到数字的技术跃迁。当大多数研究者还在SRAM和模拟计算之间徘徊时清华大学团队在ISSCC 2024上展示的eDRAM-LUT架构用数字电路的精度实现了模拟电路般的能效。这背后是一系列反直觉的设计选择为什么放弃成熟的SRAM而选择需要定期刷新的eDRAM查找表如何替代数字设计中最基础的全加器树这些决策背后隐藏着对后摩尔时代芯片设计范式的重新思考。1. 存内计算的十字路口为什么是eDRAMLUT1.1 存储介质的选择困境在存内计算芯片中存储单元约占芯片面积的70%。传统方案通常面临两难SRAM阵营访问速度快但密度低6T单元面积约0.3μm²28nmeDRAM阵营密度高3T单元可做到0.145μm²但需刷新电路// 典型3T eDRAM单元结构示例 module edram_cell ( input WWL, RWL, WBL, inout RBL ); transistor T1(WBL, WWL, storage_node); transistor T2(storage_node, RWL, RBL); capacitor C1(storage_node); endmodule关键指标对比特性SRAMeDRAM本设计优势单元面积0.3μm²0.145μm²面积节省51.7%静态功耗漏电流为主需刷新功耗动态刷新策略优化计算精度数字级通常模拟保持数字精度工艺兼容性标准逻辑需特殊工艺采用标准28nm HKMG1.2 计算单元的范式转换传统数字存内计算依赖全加器树进行累加而本设计大胆采用查找表(LUT)实现乘法累加(MAC)运算。这种转变带来三重收益面积优化9-track全加器树 vs 可编程LUT能效提升消除组合逻辑的翻转功耗灵活性增强支持动态权重更新注意LUT的预计算特性使其特别适合神经网络中重复使用的权重模式但对随机计算负载可能不具优势2. 架构创新CS-DCA双模阵列的精妙设计2.1 可重构的bank结构芯片采用16个独立bank组成的256×160阵列每个bank包含16个eLADeDRAM LUT加法器分层解码器4:16激活解码/8:256存储解码IMREP内存刷新编码端口# 伪代码展示双模切换逻辑 def mode_switch(mode): if mode CIM: activate_decoder(4,16) configure_lut_adder() else: # Memory mode memory_decoder(8,256) disable_compute()2.2 eLAD的电路级创新每个eLAD包含的创新设计动态锁存结构减少刷新能耗双写回路径提升吞吐量阈值电压优化eHVT晶体管用于写字线降低漏电LVT晶体管用于读端口减少延迟3. 实测性能数字精度下的模拟级能效3.1 关键指标突破在28nm工艺下实现的测试结果能效19.7 TOPS/mm² 0.9V精度完整8bit数字精度面积0.017mm²核心面积吞吐10 TOPS总量3.2 横向对比优势与同类方案的性能对比设计类型能效(TOPS/W)精度损失存储密度本设计位置模拟CIM50-1003bit中保持精度SRAM数字CIM5-10无低3倍能效新兴存储器CIM20-301-2bit高工艺成熟4. 设计启示从专用加速到通用计算的路径4.1 动态可配置性价值传统CIM宏的固定尺寸导致小数据维度时40%功耗浪费在重复访问大数据维度时计算资源闲置本设计的bank级可配置性实现了权重更新无需重构整个阵列支持从4×8b到16×16b的灵活配置4.2 面向实际场景的刷新策略通过IMREP模块实现的创新温度自适应刷新25°C时1.3μs60°C时0.5μs计算感知刷新MAC操作期间暂停刷新区域刷新仅刷新活跃bank在BERT-base推理任务中的实测显示相比固定刷新策略可降低28%的刷新能耗。这种设计哲学表明存内计算芯片需要从纯硬件优化转向算法-硬件协同设计。当大多数存内计算研究还在精度与能效间艰难取舍时这项eDRAM-LUT设计展示了一条融合之路。它提醒我们有时候突破性的进步不是来自全新元件的发明而是现有组件的创造性重组。就像LUT这个FPGA中的古老概念在存内计算领域焕发出新的生命力。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2436740.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!