[论文阅读]Deeply-Supervised Nets

摘要

我们提出的深度监督网络（DSN）方法在最小化分类误差的同时，使隐藏层的学习过程更加直接和透明。我们尝试通过研究深度网络中的新公式来提升分类性能。我们关注卷积神经网络（CNN）架构中的三个方面：（1）中间层对整体分类的透明性；（2）学习特征的区分性和鲁棒性，特别是在早期层；（3）由于梯度爆炸和梯度消失问题，训练效果的有效性。我们引入了“伴随目标”，除了输出层的整体目标外，还为每个隐藏层引入了独立的目标（这与逐层预训练策略不同）。我们扩展了随机梯度方法中的技术来分析我们的算法。我们方法的优势显而易见，实验结果表明，在基准数据集上的实验结果（如MNIST、CIFAR-10、CIFAR-100和SVHN）相较于现有方法显著提高了性能。

1.简介

近年来，神经网络，尤其是深度学习（DL）得到了广泛关注，深度学习可以是无监督的[10]、有监督的[12]，或是混合形式的[18]。当深度学习技术用于图像分类[11, 16]和语音识别[4]时，尤其是在大量训练数据的情况下，已经观察到显著的性能提升。一方面，层次化和递归网络[7, 10, 12]在自动学习数千甚至数百万个特征以进行模式识别方面展现了巨大的潜力；另一方面，关于深度学习的担忧也被提出，许多基本问题仍然悬而未解。
当前深度学习（DL）框架的潜在问题包括：隐藏层学习到的特征的透明度和区分性降低[31]；由于梯度爆炸和梯度消失导致的训练困难[8, 22]；尽管在理论方面做出了一些尝试，但仍缺乏对算法行为的透彻数学理解[6]；对大量训练数据的依赖[11]；训练过程中的手动调参复杂度[15]。尽管如此，深度学习能够在一个集成框架中自动学习和融合丰富的层次化特征。最近的开源活动和经验分享[11, 5, 2]也极大促进了深度学习在机器学习社区及其他领域的采纳和发展。为了增强深度学习的性能，除了各种工程技巧（如调整特征规模、步长和收敛速率），还提出了许多技术，如dropout[11]、dropconnect[19]、预训练[4]和数据增强[24]。CNN算法[12]自动学习的特征是直观的[31]。一些特征，特别是早期层的特征，也表现出一定程度的不透明性[31]。这一发现与另一个观察一致，即特征学习早期层的不同初始化对最终分类几乎没有影响[4]。此外，梯度消失的存在也使得深度学习的训练变得缓慢且低效[8]。在本文中，我们通过提出一种新算法——深度监督网络（DSN），来解决深度学习中的特征学习问题，该算法对隐藏层和输出层都进行直接和早期的监督。我们为每个隐藏层引入伴随目标，作为学习过程中的附加约束（或新正则化）。我们新的公式显著提升了现有监督深度学习方法的性能。我们还尝试使用随机梯度技术为我们的公式提供理论依据。我们展示了在假设优化函数具有局部强凸性（这一假设较为宽松，但指向了一个有前景的方向）下，所提方法在收敛速率上的改进。
有几种现有方法特别值得提及，并与我们的方法进行比较。在[1]中，进行了逐层监督预训练。我们提出的方法不进行预训练，而是强调最小化输出分类误差，同时减少每个单独层的预测误差。这一点很重要，因为反向传播是在一个集成框架中同时进行的。在[26]中，标签信息被用于无监督学习。深度学习中也进行了半监督学习[30]。在[28]中，输出层使用了SVM分类器，而不是CNN[12]中的标准softmax函数。我们的框架（DSN），在选择使用SVM、softmax或其他分类器时，强调了对每个中间层的直接监督。在实验中，我们展示了DSN-SVM和DSN-Softmax在CNN-SVM和CNN-Softmax上的一致性改进。我们观察到在MNIST、CIFAR-10、CIFAR-100和SVHN上的所有最新技术结果。值得一提的是，我们的公式也包含了最近提出的各种技术，如平均[24]、dropconnect[19]和Maxout[9]。我们预计通过对DSN进行精心工程设计，能进一步减少分类误差。
在这里插入图片描述

2.深度监督网络

在本节中，我们给出了所提出的深度监督网络（DSN）的主要公式。我们专注于围绕有监督的CNN风格框架[12,5,2]构建我们的基础设施，通过向每一层引入分类器，例如SVM模型[29]。[28]中有一个早期的将SVM与DL结合的尝试，但与我们的动机不同，只研究了输出层，有一些初步的实验结果。

2.1 动机

我们的动机来源于以下简单的观察：通常来说，基于高度可区分特征训练的判别分类器，其表现会比基于较少可区分特征训练的判别分类器更好。如果所讨论的特征是深度网络中的隐藏层特征图，这一观察意味着，使用这些隐藏层特征图训练的判别分类器的表现，可以作为这些隐藏层特征图质量/区分性的代理，进而作为上层特征图质量的代理。通过在网络的每个隐藏层适当利用这种特征质量反馈，我们能够直接影响隐藏层权重/滤波器的更新过程，从而偏向于生成高度可区分的特征图。这是一种在网络内部每一层深处起作用的监督方式；当我们的特征质量代理良好时，我们预期能够比仅依赖于从输出层进行的逐步反向传播更快地接近良好特征的区域。我们还预期能缓解“爆炸”或“消失”梯度的常见问题。直接追求每一隐藏层特征区分性的一个顾虑是，这可能会干扰整体网络的表现，因为最终用于最终分类的特征图是输出层的特征图；但我们的实验结果表明，这种情况并不存在。

我们的基本网络架构将类似于CNN框架中使用的标准架构。我们额外的深度反馈通过将每个隐藏层与一个伴随的局部输出关联来引入。我们可以将这个伴随局部输出看作是一个被截断的网络最终会产生的输出的类比。现在，误差的反向传播按常规进行，关键的不同在于，我们不仅从最终层进行反向传播，还同时从我们的局部伴随输出进行反向传播。实验结果表明，伴随目标具有以下主要特性：（1）它充当一种特征正则化（尽管是不同寻常的），能够显著减少测试误差，但不一定减少训练误差；（2）它导致更快的收敛，尤其是在训练数据较少的情况下（见图（2），它展示了一个运行示例）。

2.2 公式化

我们专注于监督学习情况，并设定 $S = \{(X_i, y_i), i = 1..N\}$ 作为我们的输入训练数据集，其中样本 $X_i \in \mathbb{R}^n$ 表示原始输入数据， $y_i \in \{1, \dots, K\}$ 是样本 $X_i$ 对应的真实标签。为了简化记法，我们省略了索引 $i$ ，因为每个样本都是独立考虑的。深度网络，特别是卷积神经网络（CNN）的目标[12]是学习滤波器和权重，以最小化输出层的分类误差。在这里，我们将偏置项合并到权重参数中，并且不区分滤波器和权重，定义每一层 $m = 1.. M$ 的递归函数为：

$Z^{(m)} = f(Q^{(m)}), \quad Z^{(0)} = X, \tag{1}$

$Q^{(m)} = W^{(m)} * Z^{(m-1)}. \tag{2}$

其中， $M$ 表示层的总数； $W^{(m)}, m = 1..M$ 是要学习的滤波器/权重； $Z^{(m-1)}$ 是第 $m - 1$ 层生成的特征图； $Q^{(m)}$ 表示对前一层特征图进行卷积/滤波后的响应； $f ()$ 是对 $Q$ 的池化函数；将所有层的权重组合为：

$(W^{(1)}, \dots, W^{(M)}).\tag{1}$
现在我们引入一组分类器，例如SVM（可以应用其他分类器如Softmax，我们将在实验中展示使用SVM和Softmax的结果），每个隐藏层一个分类器，定义为：

$(w^{(1)}, \dots, w^{(M-1)}),\tag{2}$

除了标准CNN框架中的 $W$ 。我们将 $w^{(out)}$ 表示为输出层的SVM权重。因此，我们构建整体的组合目标函数为：

$\| w^{(out)} \|^2 + L(W, w^{(out)}) + \sum_{m=1}^{M-1} \alpha_m [\| w^{(m)} \|^2 + \ell(W, w^{(m)}) - \gamma ]_+ \tag{3}$

其中，

$w^{(out)}) = \sum_{y_k \neq y} [ 1 - \langle w^{(out)}, \phi(Z^{(M)}, y) - \phi(Z^{(M)}, y_k) \rangle ]^2_+ \tag{4}$

和

$\ell(W, w^{(m)}) = \sum_{y_k \neq y} [ 1 - \langle w^{(m)}, \phi(Z^{(m)}, y) - \phi(Z^{(m)}, y_k) \rangle ]^2_+ \tag{5}$

我们将 $L(W, w^{(M)})$ （应该是 $L(W, w^{(out)})$ ）称为整体损失（输出层），将 $\ell(W, w^{(m)})$ 称为伴随损失（隐藏层），这两个损失都是预测误差的平方和。上述公式可以直观地理解：除了学习卷积核和权重 $W^*$ 外，就像标准CNN框架[12]一样，我们还强制添加了一个约束，要求在每个隐藏层中直接影响每个层的学习，进而推动每一层学习到具有区分性和合理性的特征。在式 (3) 中， $w^{(out)} \|^2$ 和 $L(W, w^{(out)})$ 分别表示输出层SVM分类器的边际和平方hinge损失（L2SVM）[4]；在式 (3) 中， $w^{(m)} \|^2$ 和 $\ell(W, w^{(m)})$ 分别是每个隐藏层SVM分类器的边际和平方hinge损失。需要注意的是， $w^{(m)}$ 直接依赖于 $Z^{(m)}$ ，而 $Z^{(m)}$ 取决于 $W^1, \dots, W^m$ 直到第 $m$ 层。 $L(W, w^{(out)})$ 依赖于 $w^{(out)}$ ，它由整个 $W$ 决定。式 (3) 中的第二项通常随着训练过程的进行，逐渐趋向于零；这样，输出层的分类没有改变，伴随目标仅作为一个代理进行正则化。通过将 $\gamma$ 作为阈值（一个超参数），在式 (3) 中，我们得到当隐藏层达到或低于 $\gamma$ 时，整体损失的影响消失（变为0），不再参与训练过程。 $\alpha_m$ 平衡了输出层损失与伴随损失的影响。在训练中，我们还可以使用逐步衰减因子，例如 $\alpha_m \approx 0.1 \times (1 - t / N) \to \alpha_m$ ，以强制第二项在一定的迭代次数后消失，其中 $t$ 是当前训练轮次， $N$ 是总训练轮数（这个衰减因子在不同实验条件下也许会变化但是这个差异可能不会很大）。

总结来说，我们描述这个优化问题如下：我们希望学习整个网络的滤波器/权重 $W$ ，使得在输出特征图上训练的SVM分类器 $w^{(out)}$ 能够表现出良好的性能。我们追求输出性能的同时，还要求隐藏层分类器能够达到某种“令人满意”的性能。我们的意思是：将注意力集中于特征空间的部分区域，当考虑到内部层时，可以得到高度区分性的隐藏层特征图（通过我们对隐藏层分类器性能的代理来衡量）。公式 (3) 和以往的逐层监督训练的主要区别在于，我们在优化过程中同时进行正则化（或规范化）隐藏层。例如，逐层的贪婪预训练要么作为初始化进行，要么作为微调进行，最终可能导致某些过拟合[1]。最新的基准结果展示了我们公式的特殊优势。如图2©所示，实际上CNN和DSN都达到了接近零的训练误差，但DSN在更好的一般化能力方面展现出了明显的优势。（感觉DSN明显的error更小啊）
在这里插入图片描述
为了使用SGD训练DSN模型，模型参数关于目标函数的梯度为：

$\frac{\partial F}{\partial w^{(out)}} = 2 w^{(out)} - 2 \sum_{y_k \neq y} \left[ \phi(Z^{(M)}, y) - \phi(Z^{(M)}, y_k) \right] \left[ 1 - \langle w^{(out)}, \phi(Z^{(M)}, y) - \phi(Z^{(M)}, y_k) \rangle \right]_+$
$\frac{\partial F}{\partial w^{(m)}} = \begin{cases} \alpha_m \left\{ 2 w^{(m)} - 2 \sum_{y_k \neq y} \left[ \phi(Z^{(m)}, y) - \phi(Z^{(m)}, y_k) \right] \left[ 1 - \langle w^{(m)}, \phi(Z^{(m)}, y) - \phi(Z^{(m)}, y_k) \rangle \right]_+ \right\}, & \text{otherwise} \\ 0, & \text{if} \ \| w^{(m)} \|^2 + \ell(W, w^{(m)}) \leq \gamma \end{cases}$
$W$ 的梯度遵循传统的CNN基础模型再加上来自隐藏层监督的梯度。

接下来，我们将进行更多讨论，并尝试直观理解我们的公式（公式 (3）。为了方便参考，我们将目标函数写成：
$\equiv P(W) + Q(W), \tag{7}$
其中：
$\| w^{(out)} \|^2 + L(W, w^{(out)}), \quad Q(W) = \sum_{m=1}^{M-1} \alpha_m \| w^{(m)} \|^2 + \ell(W, w^{(m)}) - \gamma \|_+.$
(就是简化为两部分，一部分是输出层的损失函数，另一部分是中间层的损失函数)

2.3 随机梯度下降场景

我们关注的是DSN在收敛性方面的优势，而不是对泛化方面的正则化。除了当前CNN的学习到的特征并不总是直观且具有区分性的问题之外，深度神经网络的训练难度也被讨论过[8, 22]。

从公式（1）和（2）可以看出，底层权重的变化通过各层的函数传播，导致梯度爆炸或梯度消失[22]。为了更好地训练深度神经网络，已经提出了各种技术和参数调优技巧，如预训练和dropout[11]。在这里，我们对我们提出的公式进行了一些较为宽松的分析，旨在理解其在有效性方面的优势。

深度神经网络中的目标函数是高度非凸的。在这里，我们做出以下假设/观察：（1）深度学习的目标/能量函数在“最优”解附近存在一个较大的“平坦”区域，在该区域内任何结果的性能都相似；（2）在局部范围内，我们仍然假设该函数是凸的（甚至是λ-强凸的），其优化通常通过随机梯度下降算法进行[3]。

λ-强凸的定义是标准的：一个函数 $F (W)$ 是 λ-强凸的，如果对所有 $\in \mathcal{W}$ 和任何在 $W$ 处的梯度 $g$ ，都有：

$\geq F(W) + \langle g, W' - W \rangle + \frac{\lambda}{2} \| W' - W \|^2,\tag{8}$

并且随机梯度下降（SGD）在第t步中的更新规则为：

$W_{t+1} = \Pi_{\mathcal{W}} (W_t - \eta_t \hat g ),$

其中 $\eta_t = \Theta(1/t)$ 表示步长， $\Pi_{\mathcal{W}}$ 有助于将更新投影到 $\mathcal{W}$ 空间。设 $W^*$ 为最优解，强凸函数的上界为 $E[\| W_T - W^* \|^2]$ 和 $E[(F(W_T) - F(W^*))^2]$ [23]。我们尝试理解公式（8）的收敛性，具体是 $E[(F(W_T) - F(W^*))^2]$ ，由于图1(b)中显示了大量的平坦区域，导致了函数的收敛性问题。在[21]中，给出了具有组合损失和正则化项的局部凸函数的收敛速率。

公式（8）中的两项即为伴随目标。我们的动机是双重的：（1）鼓励每一层学习到的特征能够直接用于类别标签预测，同时保持输出层的最终目标是最小化类别标签预测错误；（2）缓解梯度爆炸和消失的问题，进一步提高每一层的监督能力。一种可能的担忧是，学习高度区分的阶段性特征可能不一定会导致最好的预测，如图1(b)中所示。接下来，我们对我们的方法给出了松散的理论分析，并通过全面的实验研究证明其在现有方法上的压倒性优势。

定义我们将 $S_{\gamma}(F) = \{ W : F(W) \leq \gamma \}$ 称为函数 $\equiv P(W) + Q(W)$ 的 $\gamma$ -可行集。

首先，我们证明一个 $Q (W)$ 的可行解会导致 $P (W)$ 的可行解。即：

引理 1 对于 $\, m' > m$ ，如果 $\| w^{(m)} \|^2 + \ell((\hat{W}^{(1)}, \dots, \hat{W}^{(m)}), w^{(m)}) \leq \gamma$ ，那么存在 $(\hat{W}^{(1)}, \dots, \hat{W}^{(m)}, \dots, \hat{W}^{(m')})$ 使得

$\| w^{(m')} \|^2 + \ell((\hat{W}^{(1)}, \dots, \hat{W}^{(m)}), \hat{W}^{(m')}) \leq \gamma.$

证明如图(1a)所示，假设对于 $(\hat{W}^{(1)}, \dots, \hat{W}^{(m)})$ ，有 $\ell((\hat{W}^{(1)}, \dots, \hat{W}^{(m)}), w^{(m)}) \leq \gamma$ 。那么，对于每一层 $j > m$ ，我们设 $\hat{W}(j) = I$ 且 $w^{(j)} = w^{(m)}$ ，这意味着滤波器将是单位矩阵。这导致了

$\ell((\hat{W}^{(1)}, \dots, \hat{W}^{(m)}, \hat{W}^{(m')}), w^{(m')}) \leq \gamma.$

备注引理1表明， $Q (W)$ 的一个好的解也是 $P (W)$ 的一个好的解，但反过来不一定成立。也就是说，一个使得 $P (W)$ 较小的 $W$ 不一定能够为隐藏层产生具有区分性的特征，从而使得 $Q (W)$ 较小。然而， $Q (W)$ 可以被视为正则化项。由于 $P (W)$ 在训练数据上观察到一个接近零的非常平坦的区域，最终我们关心的是测试误差，因此我们仅关注 $W$ 和 $W^*$ ，使得 $Q (W)$ 和 $P (W)$ 都很小。因此，假设 $\equiv P(W) + Q(W)$ 和 $P (W)$ 共享相同的最优解 $W^*$ 是合情合理的。

令 $P (W)$ 和 $P (W^{'})$ 在 $W^*$ 附近强凸，满足 $\| W' - W^* \|^2 \leq D$ 和 $\| W - W^* \|^2 \leq D$ ，且 $\geq P(W) + \langle gp, W' - W \rangle + \frac{\lambda}{2} \| W' - W \|^2$ 和 $\geq Q(W) + \langle gq, W' - W \rangle$ ，其中 $g p$ 和 $g q$ 分别是 $P$ 和 $Q$ 在 $W$ 处的次梯度。可以直接看到， $F (W)$ 也是强凸的，并且对于 $F (W)$ 在 $W$ 处的次梯度 $g f$ ，有 $g f = g p + g q$ 。

引理 2 假设 $E[\| \hat{g}_p \|^2] \leq G^2$ 和 $E[\| \hat{g}_q \|^2] \leq G^2$ ，并且我们使用更新规则 $W_{t+1} = \Pi_{\mathcal{W}} (W_t - \eta_t (g_p t + g_q t))$ ，其中 $E[\hat{g}_p t] = g_p t$ 和 $E[\hat{g}_q t] = g_q t$ ，如果我们使用 $\eta_t = 1/(1 + \lambda t)$ ，则在时间戳 $T$ 时：

$E[\| W_T - W^* \|^2] \leq \frac{12G^2}{(\lambda_1 + \lambda_2)^2 T} \tag{9}$

证明由于 $F (W) = P (W) + Q (W)$ ，可以直接得出：

$\geq F(W) + \langle g_p, W' - W \rangle + \langle g_q, W' - W \rangle + \frac{\lambda_1 + \lambda_2}{2} \| W' - W \|^2.$

根据[23]中的引理1，这个上界直接成立。

引理 3 在假设引理2的基础上，但现在我们假设 $\eta_t = 1/t$ ，因为 $\lambda_1$ 和 $\lambda_2$ 并非总是可用的，那么从 $\| W_1 - W^* \|^2 \leq D$ 开始，收敛速率被界定为：

$E[\| W_T - W^* \|^2] \leq e^{-2\lambda ( \ln(T + 0.578))} D + (T - 1) e^{-2\lambda (\ln(T-1))} G^2 \tag{10}$

证明设 $\lambda = \lambda_1 + \lambda_2$ ，我们有：

$F(W^*) - F(W_t) \geq \langle g_f, W^* - W_t \rangle + \frac{\lambda}{2} \| W^* - W_t \|^2,$

并且：

$F(W^*) - F(W_t) \geq \frac{\lambda}{2} \| W_t - W^* \|^2.$

因此，利用 $\eta_t = 1/t$ ，

$E[\| W_{t+1} - W^* \|^2] \leq E[\| W_t - W^* \|^2] - 2\eta_t E[\langle g_f, W_t - W^* \rangle] + G^2 / t^2 \tag{11}$

当 $2\lambda/t$ 很小，我们有 $2\lambda/t \approx e^{-2\lambda/t}$ 。

$E[\| W_T - W^* \|^2] \leq e^{-2\lambda (\frac{1}{2} + \frac{1}{3} + \dots + \frac{1}{T})} D + G^2 \sum_{t=1}^{T-1} \frac{G^2}{t^2} e^{-2\lambda(\ln(T-1) - \ln(t))}$

定理 1 设 $P (W)$ 为 $\lambda_1$ -强凸，且 $Q (W)$ 为 $\lambda_2$ -强凸，关于最优解 $W^*$ ，并且令 $W^{(F)}$ 和 $W^{(P)}$ 分别为应用SGD后经过 $T$ 次迭代得到的解，即求解 $P (W)$ 和 $Q (W)$ 的解。我们的深度监督框架公式(3)通过：

$\frac{E[\| W^{(P)}_T - W^* \|^2]}{E[\| W^{(P)}_T - W^* \|^2]} = \Theta \left( 1 + \frac{\lambda_1^2}{\lambda_2^2} \right),$

当 $\eta_t = 1/\lambda t$ ，并且：

$\frac{E[\| W^{(P)}_T - W^* \|^2]}{E[\| W^{(P)}_T - W^* \|^2]} = \Theta \left( (\ln(T))\lambda_2 \right),$

证明了在 $t = 1/ t$ 时， $P (W)$ 和 $Q (W)$ 在最优解上共享相同的最优解 $W^*$ 。

证明引理1展示了伴随目标 $Q$ 与输出目标 $P$ 的兼容性。第一个方程可以直接从引理2推导出来，第二个方程可以从引理3中看到。一般情况下， $\lambda_2 \gg \lambda_1$ ，这将大大提高收敛速度，并且每个隐藏层中的约束也有助于学习出直接具有区分性的滤波器。

3. 实验

我们在四个标准基准数据集上评估了提出的DSN方法：MNIST、CIFAR-10、CIFAR-100和SVHN。在所有实验中，我们遵循Krizhevsky等人[15]使用的常见训练协议。我们使用SGD求解器，mini批次（这里其实就是咱们常用的batchsize，具体解释可以看这个链接https://blog.csdn.net/weixin_45698935/article/details/106477624）大小为128，固定动量值为0.9。学习率和权重衰减因子的初始值是基于验证集确定的。为了公平比较并清晰地展示DSN的有效性，我们将我们的模型复杂度与[20]和[9]中使用的网络架构相匹配，以获得相当数量的参数。我们还引入了两个dropout层，dropout率为0.5。卷积层的伴随目标用于将分类误差引导反向传播到底层卷积层。在训练过程中，学习率按照基于验证集确定的周期安排，每训练一个周期衰减20倍。提出的DSN框架不难训练，并且没有采用特别的工程技巧。我们的系统建立在广泛使用的Caffe基础设施[14]之上。对于网络架构设置，我们采用了[20]中介绍的mlpconv层和全局平均池化方案。DSN可以配备不同类型的损失函数，如Softmax和SVM。我们展示了DSN-SVM和DSN-Softmax相对于CNN-SVM和CNN-Softmax的性能提升（见图2.a）。在小训练数据的情况下，性能提升更加明显（见图2.b）；这可能部分缓解了深度学习需要大量训练数据的负担。总体而言，我们在所有四个数据集上观察到最先进的分类错误率（没有数据增强），MNIST为0.39%，CIFAR-10为9.78%，CIFAR-100为34.57%，SVHN为1.92%（CIFAR-10数据增强后的结果为8.22%）。所有结果均未使用平均[24]，该方法并非我们独有。图3展示了部分学习到的特征。
在这里插入图片描述

3.1 MNIST

我们首先验证了提出的DSN在MNIST手写数字分类任务[17]上的有效性，这是一个在机器学习中广泛采用的基准数据集。MNIST数据集由10个不同类别（0到9）的28 × 28大小的图像组成，包含60,000个训练样本和10,000个测试样本。图2(a)和(b)展示了四种方法的结果，分别是：（1）传统的CNN与softmax损失（CNN-Softmax），（2）提出的DSN与softmax损失（DSN-Softmax），（3）CNN与最大边际目标（CNN-SVM），以及（4）提出的DSN与最大边际目标（DSN-SVM）。DSN-Softmax和DSN-SVM优于它们的竞争CNN算法（在没有数据白化和增强的单个模型下，DSN-SVM的分类错误率为0.39%）。图2(b)展示了当训练样本大小变化时，竞争方法的分类错误率（在500个样本时，DSN-SVM比CNN-Softmax提高了26%的准确率）。图2( c )展示了CNN和DSN之间的泛化误差比较。

3.2CIFAR-10 和CIFAR-100

CIFAR-10数据集由32 × 32彩色图像组成，共有60,000张图像，分为50,000张训练图像和10,000张测试图像。数据集经过全局对比度归一化预处理。为了与之前的最先进结果进行比较，在此情况下，我们还通过在每一边零填充4个像素，然后在训练过程中进行角裁剪和随机翻转来增强数据。在测试阶段没有进行模型平均，我们仅对测试样本的中心进行裁剪。表2展示了我们的结果。我们的DSN模型在没有数据增强的情况下达到了9.78%的错误率，在进行了数据增强后达到了8.22%（这是我们所知的最佳已知结果）。
在这里插入图片描述
DSN还提供了对超参数选择的额外鲁棒性，因为早期层通过直接分类损失进行引导，从而加快了收敛速度，减轻了对重度超参数调优的负担。我们还比较了DSN和CNN中的梯度，观察到在第一个卷积层中，DSN的梯度方差是CNN的4.55倍。这与[9]中的观察一致，也与我们在本工作中做出的假设和动机相符。为了查看DSN与CNN学到的特征，我们从CIFAR-10数据集的每个十个类别中选择一张示例图像，进行一次前向传播，并展示从第一层（底部）卷积层学习到的特征图，见图3。每个特征图中只显示了前30%的激活值。DSN学习到的特征图比CNN学习到的特征图更直观。

CIFAR-100数据集与CIFAR-10数据集类似，不同之处在于它有100个类别。每个类别的图像数量是500张，而不是CIFAR-10中的5,000张，这使得分类任务更加具有挑战性。我们使用与CIFAR-10相同的网络设置。表2展示了之前的最佳结果，DSN报告的结果为34.57%。在CIFAR-10和CIFAR-100上持续显示的性能提升再次证明了DSN方法的优势。

3.3 街景门牌号

Street View House Numbers (SVHN) 数据集包含73,257个用于训练的数字，26,032个用于测试的数字，以及53,113个额外的训练样本，图像尺寸为32 × 32的彩色图像。我们按照之前的工作进行数据准备，即：从训练集中选择每个类别400个样本，从额外集选择每个类别200个样本。其余的598,388张图像用于训练。我们按照[9]的处理方法，通过局部对比度归一化（LCN）对数据集进行了预处理。在训练中我们没有进行数据增强，并且在测试中只使用单个模型。表3展示了最近的可比结果。请注意，Dropconnect[19]使用了数据增强和多模型投票。
在这里插入图片描述