主要贡献:
一种完全二值化网络(bCorNET)拓扑结构及其相应的算法-架构映射和高效实现。对CorNET进行量化后,减少计算量,又能实现减轻运动伪影的效果。 该框架在22个IEEE SPC受试者上的MAE为6.67±5.49 bpm。该设计采用ST65 nm技术框架,实现3 GOPS @ 1 MHz,每个窗口消耗56.1 μ J \mu J μJ,占用1634K NAND2等效单元面积,从PPG信号估计每隔2s的HR延迟,变为32 ms。关键在于用硬件直接搭建出CNN LSTM网络。这个算法和硬件都会太强了!
理论部分的量化公式:
  
      
       
        
         
          
           
            
            
              q 
             
            
              u 
             
            
              a 
             
            
              n 
             
            
              t 
             
            
              i 
             
            
              z 
             
            
              e 
             
            
              ( 
             
            
              x 
             
            
              ) 
             
            
              = 
             
            
              r 
             
            
              o 
             
            
              u 
             
            
              n 
             
            
              d 
             
            
              ( 
             
            
              c 
             
            
              l 
             
            
              i 
             
            
              p 
             
            
              ( 
             
            
              x 
             
            
              , 
             
            
              − 
             
            
              1 
             
            
              , 
             
            
              1 
             
            
              ) 
             
            
              × 
             
            
              M 
             
            
              ) 
             
            
              / 
             
            
              M 
             
            
           
          
         
         
          
           
            
            
              Q 
             
            
              ( 
             
            
              x 
             
            
              ) 
             
            
              = 
             
            
              s 
             
            
              × 
             
            
              q 
             
            
              u 
             
            
              a 
             
            
              n 
             
            
              t 
             
            
              i 
             
            
              z 
             
            
              e 
             
             
             
               ( 
              
              
               
               
                 x 
                
               
                 − 
                
               
                 p 
                
               
              
                s 
               
              
             
               ) 
              
             
            
              + 
             
            
              p 
             
            
           
          
         
        
       
         \begin{gathered} q u a n t i z e(x)=r o u n d(c l i p(x,-1,1)\times M)/M \\ Q(x)=s\times q u a n t i z e\left(\frac{x-p}{s}\right)+p \end{gathered} 
        
       
     quantize(x)=round(clip(x,−1,1)×M)/MQ(x)=s×quantize(sx−p)+p
 
算法流程图:

 
硬件实现流程和时序图:

 

硬件实现:
CNN1单层实现:

Binarizer架构:

 
Binary max-pooling单元:

 
转置Buffer架构:

CNN:

 
LSTM:

 
bLSTM时序图:

实验结论:

**参考:**
Binary CorNET Accelerator for HR Estimation From Wrist-PPG













![[Eigen中文文档] 稠密矩阵分解函数对比](https://img-blog.csdnimg.cn/281b570fcc6542c18cf73cf1ad3151fe.png#pic_center)





