主要贡献:
一种完全二值化网络(bCorNET)拓扑结构及其相应的算法-架构映射和高效实现。对CorNET进行量化后,减少计算量,又能实现减轻运动伪影的效果。 该框架在22个IEEE SPC受试者上的MAE为6.67±5.49 bpm。该设计采用ST65 nm技术框架,实现3 GOPS @ 1 MHz,每个窗口消耗56.1 μ J \mu J μJ,占用1634K NAND2等效单元面积,从PPG信号估计每隔2s的HR延迟,变为32 ms。关键在于用硬件直接搭建出CNN LSTM网络。这个算法和硬件都会太强了!
理论部分的量化公式:
q
u
a
n
t
i
z
e
(
x
)
=
r
o
u
n
d
(
c
l
i
p
(
x
,
−
1
,
1
)
×
M
)
/
M
Q
(
x
)
=
s
×
q
u
a
n
t
i
z
e
(
x
−
p
s
)
+
p
\begin{gathered} q u a n t i z e(x)=r o u n d(c l i p(x,-1,1)\times M)/M \\ Q(x)=s\times q u a n t i z e\left(\frac{x-p}{s}\right)+p \end{gathered}
quantize(x)=round(clip(x,−1,1)×M)/MQ(x)=s×quantize(sx−p)+p
算法流程图:

硬件实现流程和时序图:


硬件实现:
CNN1单层实现:

Binarizer架构:

Binary max-pooling单元:

转置Buffer架构:

CNN:

LSTM:

bLSTM时序图:

实验结论:

**参考:**
Binary CorNET Accelerator for HR Estimation From Wrist-PPG













![[Eigen中文文档] 稠密矩阵分解函数对比](https://img-blog.csdnimg.cn/281b570fcc6542c18cf73cf1ad3151fe.png#pic_center)





