关于hopfield 网络和受限玻尔兹曼机，其如何为现代深度学习奠基？

news2026/5/8 23:55:48

0 感知机、hopfield网络、受限玻尔兹曼机、mlp之间的历史关系近几年入门深度学习的大多数学习者可能已经很少听说hopfield网络、受限玻尔兹曼机了很多书籍和博客在讲解深度学习基础的时候也只会讲到感知机和mlp这种结构而提及hopfield网络、受限玻尔兹曼机的文章则占少数但这两者对深度学习的发展也具有重大意义以此溯源对认识深度学习的发展路径、核心思路来说有很大的帮助或许也能为当下的科研带来相当的启发和教育意义。为了更清晰地了解这两者的历史定位和提出动机我们首先从这几项工作的历史关系出发进行详细论述与总结0.1 感知机Perceptron——神经网络的起点提出时间1957年Frank Rosenblatt 提出了感知机是最早的人工神经网络模型之一。主要特点感知机是一种二分类器输入多个特征通过一个线性方程和一个激活函数通常是阶跃函数来决定输出类别。它可以看作是一个简单的单层神经元模型。应用场景感知机擅长解决线性可分问题但无法处理更复杂的、非线性的数据。0.1.1 感知机的局限性XOR 问题1969年Marvin Minsky 和 Seymour Papert 在他们的著作《Perceptrons》中指出单层感知机无法解决像 XOR 这样的非线性可分问题。这暴露了感知机的局限性并导致了随后几年神经网络研究的停滞即所谓的“AI 冬天”。0.2 多层感知机MLP——突破线性局限发展背景为了解决感知机无法处理非线性问题的局限多层感知机MLP在 1980 年代得到了发展。MLP 在感知机的基础上引入了多个隐藏层每层包含多个神经元并使用非线性激活函数如 Sigmoid 或 ReLU。主要特点MLP 是一种前馈神经网络通过多个层次的特征转换可以处理复杂的非线性任务。它使用反向传播算法Backpropagation来调整网络权重这是由 Geoffrey Hinton、David Rumelhart 和 Ronald J. Williams 等人在 1986 年提出的这一算法解决了多层神经网络的训练问题。意义MLP 的出现及其训练方法反向传播的突破使得神经网络重新成为人工智能研究的热点。MLP 成为现代深度学习网络的基石并扩展到 CNN、RNN 等更复杂的架构。时代局限性在 20 世纪 80 年代及之前计算资源非常有限。MLP 的多层结构和大量参数需要大量计算能力来进行训练和优化而当时的硬件无法支持这种大规模计算。同时模型的表现也受限于浅层网络无法展示其在更大、更复杂任务上的潜力。MLP 在使用反向传播算法训练时尤其是对于具有 Sigmoid 或 Tanh 激活函数的深层网络容易出现梯度消失问题。随着层数增加反向传播时梯度会逐渐减小导致靠近输入层的权重几乎无法更新从而影响了网络的学习能力。这种问题在 20 世纪 80 和 90 年代的研究中非常普遍限制了 MLP 的训练深度和效果。0.3 Hopfield 网络——联想记忆与能量最小化提出时间1982年John Hopfield 提出了 Hopfield 网络是一种递归神经网络。主要特点Hopfield 网络受物理学中自旋玻璃模型的启发利用能量最小化的原理来进行联想记忆。它的网络结构是对称的即每个神经元与其他神经元都有双向连接。Hopfield 网络通过调整状态使得能量降低从而达到稳定状态。应用场景Hopfield 网络适合用来实现联想记忆和模式恢复当输入一个带有噪声的模式时网络会调整到最接近的已存储模式。然而它的容量有限并且容易陷入局部最小值。历史地位Hopfield 网络在 1980 年代神经网络复兴中起到了重要作用为后来神经网络的记忆机制和递归结构提供了基础。同时Hopfield 网络的能量最小化思想影响了后来的玻尔兹曼机。0.4 玻尔兹曼机Boltzmann Machine与受限玻尔兹曼机RBM提出时间1985年Geoffrey Hinton 和 Terry Sejnowski 提出了玻尔兹曼机Boltzmann Machine是一种基于概率模型的生成网络。主要特点玻尔兹曼机基于能量最小化和概率分布的思想类似于 Hopfield 网络但引入了随机性通过马尔科夫链蒙特卡洛方法。玻尔兹曼机的目标是通过学习数据分布的概率模型来生成数据但其训练过程非常复杂和计算密集。受限玻尔兹曼机RBM1986年Geoffrey Hinton 等人提出了 RBM作为玻尔兹曼机的简化版。RBM 通过限制隐藏层和可见层之间的连接可见层和隐藏层之间的双向连接但同层单元之间无连接大大简化了训练过程。RBM 可以被用于无监督特征学习和降维。历史贡献RBM 的提出推动了无监督学习和深度学习的早期研究。它是深度信念网络DBN的基础单元并在 Hinton 等人的研究中得到了广泛应用。RBM 提供了一种堆叠多层网络并进行无监督预训练的方法这是现代深度学习中的一个重要思想。0.5 这些模型之间的关系和历史演变模型时间核心思想主要应用对后续研究的影响感知机Perceptron1957单层、线性模型二分类任务揭示了单层网络的局限性导致 AI 冬天多层感知机MLP1980s多层非线性结构、反向传播复杂任务的分类和回归解决非线性问题成为深度学习的基础Hopfield 网络1982能量最小化、联想记忆模式恢复、联想记忆影响递归网络和能量模型玻尔兹曼机Boltzmann Machine1985概率模型、生成建模特征学习、生成模型启发了概率神经网络的研究受限玻尔兹曼机RBM1986简化的玻尔兹曼机无监督特征学习、降维深度信念网络的构建基础推动无监督学习0.6 对现代深度学习的启发多层与非线性处理从感知机到 MLP再到更复杂的深度网络这一演变体现了处理非线性任务的重要性。MLP 和反向传播的突破使得多层网络成为可能并推动了深度学习的发展。能量最小化与记忆机制Hopfield 网络和玻尔兹曼机特别是 RBM引入的能量最小化和概率建模思想在现代生成对抗网络GAN、变分自动编码器VAE以及自监督学习中都有应用。无监督预训练RBM 和 Hopfield 网络都在特征学习和预训练方面提供了早期的探索特别是 RBM 的无监督特征学习方法影响了深度信念网络DBN以及后续的自监督和半监督学习方法。0.7 总结Hopfield 网络、RBM、MLP 和感知机在神经网络发展史上形成了一个递进和演变的过程 -感知机作为起点为神经网络模型奠定了基础。 -MLP解决了非线性可分问题并通过反向传播成为现代深度学习的基石。 -Hopfield 网络引入了记忆和能量最小化的概念对后来的递归结构和生成模型有重要影响。 -RBM和玻尔兹曼机引导了无监督学习和深度模型的预训练为现代深度学习的发展奠定了理论和实践基础。这些模型在历史上的相互影响和发展形成了深度学习和现代神经网络的理论基石推动了今天人工智能的快速发展。1 hopfield 网络1974年hopfield发表了一篇生物领域的论文将DNA 合成、tRNA 充电即将氨基酸与其特定的 tRNA 连接以及蛋白质组装这三种截然不同的化学过程的反应方案描述为结合简单统一原理的不同方式。论文的内容本身和之后的hopfield网络并无关联但是Hopfield认为1974 年的论文对于我解决生物学问题非常重要因为它让我思考生物学中反应网络结构的功能而不是分子本身结构的功能。网络可以“解决问题”或具有超出单个分子和线性路径能力的功能。六年后我在思考神经元网络而不是单个神经元的属性时概括了这一观点。这或许启发了Hopfield network的萌芽因为下面我们可以看到Hopfield network一个重要的特性就是神经网络能超越与涌现出超越个体神经元的力量达到111…1 N 的效果。好网络很好那么hopfield将要提出的网络他是用于什么任务、解决什么问题的呢简言之是做状态存储和联想记忆。什么意思呢hopfield想让这个网络像人脑一样存储一些信息作为记忆。如何用网络表示或记录这些信息呢可以用网络中每个神经元的0、1取值状态来表示一个记忆嘛是这样是可以用网络来表示状态了但我们还要做联想记忆呢比如说我们这个网络里存储了对应于单词 artificial 的状态和对应于单词 intelligence 的状态那我们希望向这个网络输入一个aritif__cial他能通过联想自动返回对应 artificial 的网络状态。怎么处理这个输入怎么实现这个返回呢这时候在1970年代短暂流行的元细胞自动机Cellular automaton以及物理学中一个非常著名的模型伊辛模型Ising Model给了Hopfield一定启发。这两者有着极其相似的思想元细胞自动机Cellular Automata, CA和伊辛模型Ising Model在思想上有一些相似之处主要体现在以下两个方面局部相互作用元细胞自动机CA中的每个细胞的状态由其相邻细胞的状态决定即它们只与局部的邻居进行相互作用。例如在经典的“生命游戏”中每个细胞的生死状态仅取决于周围8个相邻细胞的状态。伊辛模型伊辛模型中每个自旋spin的状态1 或 -1也仅受邻近自旋的影响。自旋之间的相互作用能量取决于其与最近邻自旋的排列同向或反向从而使得系统的整体状态通过局部相互作用来演化。全局行为由局部规则决定元细胞自动机整个系统的演化是通过简单的局部规则驱动的。尽管规则看似简单但整个系统会展示出复杂的全局行为。例如“生命游戏”中的复杂结构如“滑翔机”或“振荡器”都是基于简单的细胞规则形成的。伊辛模型同样伊辛模型的整体状态如磁化状态是通过自旋之间的简单相互作用规则例如“同向自旋倾向于降低能量”逐渐演化而来的。通过这种局部相互作用可以形成如铁磁有序状态或反铁磁有序状态的全局行为。以下是元细胞自动机和伊辛模型的具体例子 1. 元细胞自动机康威的生命游戏康威的生命游戏Conways Game of Life是元细胞自动机的一个经典例子。我们可以定义一个 10 \times 10 的网格其中每个细胞的状态要么为1活着要么为0死了。生命游戏的规则如下如果一个细胞活着1且它周围有2或3个活细胞则它在下一轮依然存活。如果一个细胞死了0且它周围有3个活细胞则它在下一轮复活。其他情况下细胞在下一轮会死亡或继续保持死亡。具体例子初始状态如下 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 这一初始配置叫做“闪烁器”blinker它会在下一轮变成 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 然后它会再一次变回原来的状态形成一个周期性的振荡现象。这种振荡器的行为类似于伊辛模型中自旋之间通过相互作用形成稳定模式的情况。 2. 伊辛模型二维伊辛模型二维伊辛模型定义在一个 10 \times 10 的网格上每个格点上的自旋可以取1向上或-1向下。我们设定邻近自旋的耦合常数 J 1 并且设置温度 T 来控制系统的热涨落。伊辛模型的哈密顿量 H 表示系统的能量其中 S_i 和 S_j 是相邻格点的自旋。具体例子假设初始状态下的网格是如下随机分布 1 -1 1 -1 1 -1 1 -1 1 -1 -1 1 -1 1 -1 1 -1 1 -1 1 1 -1 1 -1 1 -1 1 -1 1 -1 -1 1 -1 1 -1 1 -1 1 -1 1 1 -1 1 -1 1 -1 1 -1 1 -1 -1 1 -1 1 -1 1 -1 1 -1 1 1 -1 1 -1 1 -1 1 -1 1 -1 -1 1 -1 1 -1 1 -1 1 -1 1 1 -1 1 -1 1 -1 1 -1 1 -1 -1 1 -1 1 -1 1 -1 1 -1 1 如果温度 T 很低例如 T 0.5J 自旋会逐渐趋于一致例如演化到一个铁磁态 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 这个演化过程展示了局部相互作用如何逐渐形成全局有序的结构与元细胞自动机中通过局部规则产生全局模式的思想相似。总结在元细胞自动机中我们看到了一个简单的“闪烁器”在局部规则作用下周期性变化的具体例子。在伊辛模型中我们展示了一个初始随机状态如何在低温条件下演化为全局有序的铁磁态。这两个例子都通过具体数值和状态展示了如何通过简单的局部相互作用邻居细胞或自旋的状态产生复杂的全局行为体现了元细胞自动机和伊辛模型在思想上的相似性。Hopfield网络由个神经元组成每个神经元的状态用表示其取值为或类似于物理学中的自旋状态向上或向下。每两个神经元之间都有一个权值连接。这个网络的核心在于通过这些神经元之间的连接来存储和检索信息并实现联想记忆功能。1.1 状态初始化与状态更新网络初始化根据输入值初始化网络中每个神经元的状态。假设一个初始状态向量表示网络中每个神经元的初始状态。状态更新规则每个神经元的状态根据它与其他神经元的连接权重和邻近神经元的当前状态来更新。具体来说神经元的状态在时间时刻的更新规则如下其中 - 为符号函数即当括号内的值大于0时输出1当值小于0时输出-1。 - 是神经元的阈值通常可以设为0。 - 是神经元的输入值它根据其连接的神经元的状态和连接权重计算得出。这个规则的核心思想是神经元的状态由邻居的状态和连接权重共同决定这与伊辛模型和元细胞自动机中的“局部相互作用决定全局行为”的思想相一致。1.2 能量函数与稳定状态为了让网络演化到一个稳定的状态即全局最优或局部最优Hopfield引入了一个类似物理系统中的能量函数。这个能量函数用于描述网络的“能量”或“成本”网络通过不断降低这个能量来找到最优状态。Hopfield网络的能量函数定义为其中 - 是网络的总能量 - 是神经元和之间的连接权重 - 和是神经元和的状态 - 是神经元的阈值。在每次迭代中根据上面的状态更新规则网络的能量会不断减小或保持不变。这意味着网络总是朝着能量最低的方向演化最终会达到一个局部最小值。这个局部最小值对应于网络的一个稳定状态也称为吸引子。1.3 吸引子与联想记忆Hopfield网络的一个核心任务是实现联想记忆功能。网络通过定义多个吸引子即能量最低的状态来存储信息。当网络接收到一个输入模式时即使这个输入模式存在一定程度的噪声或缺失网络也会逐渐演化到与最接近的吸引子状态。这种能力类似于人类的联想记忆即便记忆不完整或模糊大脑仍能“猜出”正确的答案。为了实现这种存储和联想记忆的功能Hopfield网络使用Hebb学习规则来训练权重矩阵。具体而言如果我们希望网络存储个模式每个模式为则权重的设置为这个规则确保了每个模式都是网络的一个稳定状态。当我们向网络输入一个初始状态如果这个初始状态与存储的某个模式接近网络会逐渐收敛到这个模式对应的吸引子。1.4 具体例子联想记忆的实现假设我们有一个简单的Hopfield网络包含4个神经元用来存储两个模式 - -通过Hebb规则计算得到的权重矩阵为现在我们给网络一个初始状态这个状态与相近。根据更新规则神经元状态逐渐演化为即网络恢复了的状态完成了联想记忆的过程。2 受限玻尔兹曼机 (Restricted Boltzmann Machine)2.1 背景和起源在第二次神经网络低谷期间Geoffrey Hinton 并没有放弃对神经网络的研究而是转向了一个新的方向热力学统计模型。Hinton 基于玻尔兹曼统计的知识结合马尔科夫随机场和图学习理论为神经网络引入了一个新的模型玻尔兹曼机Boltzmann Machine, BM。他用能量函数来描述神经网络的特性以期望能够获得更多的统计学支持。不久之后Hinton 发现多层神经网络可以被视为玻尔兹曼机的一种特例这就是受限玻尔兹曼机RBM。他在 2017 年的一次采访中称 RBM 为他做过的“最美的工作”。2.2 玻尔兹曼分布与神经网络的联系在统计力学中玻尔兹曼分布或称吉布斯分布用于描述系统状态的概率分布其形式为其中表示系统状态 - 为该状态的能量 - 为该状态出现的概率 - 是玻尔兹曼常数是系统温度。在具体问题中可以简化为表达式简化为即这实际上就是softmax函数的形式这个公式在统计力学中的自然出现进一步说明了为什么 LeCun 曾建议学习物理的重要性。为了进一步简化定义则2.3 RBM 的能量函数构建Hinton 将神经网络的结构分为可见层输入层和隐含层中间层并假设每个神经元有两种状态激活1和未激活0。系统的状态即为可见层和隐含层神经元的状态组合记作。因此状态的概率可以表示为接着Hinton 采用了物理学中的易辛模型Ising model作为参考。这个模型描述了晶格系统中的相变解释了铁磁性问题的物理现象。Hinton 将神经元的偏置可见层记作隐含层记作视为外场将神经网络的权重作为耦合系数形成了 RBM 的能量函数这种表达方式将神经网络的偏置和权重自然地融入到物理系统的能量模型中实现了最简化且符合直觉的网络描述。2.4 条件概率和激活函数的推导将某个神经元关联的能量分离出来可以得到其中是与其他神经元无关的部分 - 是与相关的权重。基于此状态的条件概率可以推导为这就是sigmoid函数的形式即隐含层神经元激活的条件概率。这一推导展示了在玻尔兹曼分布下sigmoid 函数具有自然的统计学解释。2.5 优化目标与自由能RBM 优化的目标是极大化似然估计即最大化这里Hinton 将其与热力学中的自由能关联起来定义自由能为这样RBM 的优化目标就转化为找到使样本自由能最低的一组参数使得样本与参数间通过能量实现联系。这种处理方式在物理学和统计学中有着深刻的理论基础。2.6 对比散度Contrastive Divergence, CD算法RBM 的优化过程复杂尤其是配分函数的求解这在一般情况下是一个#P-Hard问题极难求解。Hinton 通过逐层训练网络来降低算法复杂度而不是整体优化。为训练每层 RBM他发展了对比散度CD算法这是一个基于 Gibbs 采样的近似算法。虽然 CD 算法的收敛速度很慢但 Hinton 通过进一步的近似固定采样步数形成了CD_k 算法。他惊讶地发现即使使用极粗糙的近似如算法的表现依然良好。2.7 RBM 在无监督学习中的应用RBM 的概率建模特性使其特别适合于无监督学习。即使没有标签数据网络也可以学习到有意义的表示。例如RBM 可以从 MNIST 数据集中学到表示手写数字的特征这些特征可以用来生成新样本或作为分类器的输入。Hinton 还发现用 RBM 的算法进行网络的无监督预处理后再加上标签使用反向传播训练可以高效地训练深层神经网络。这种方法成为“深度学习”兴起的重要基础。受限玻尔兹曼机RBM在深度学习的历史中起到了非常重要的作用它不仅帮助奠定了深度学习的理论基础还在多个方向上推动了这一领域的发展。下面我将详细解释 RBM 如何开创了深度学习的各个先河。2.8 RBM在深度学习领域中开创的先河2.8.1 用统计物理构建机器学习模型RBM 的核心思想源于统计物理学尤其是基于玻尔兹曼分布和能量函数的概念。Hinton 利用了这些物理学工具将其应用于神经网络的建模中。这种方法具有以下创新点能量函数RBM 通过定义一个能量函数来描述整个系统的状态这与物理学中的系统状态能量相对应。系统的概率分布可以通过玻尔兹曼分布来表示这种方法将机器学习模型转化为能量最小化问题使得模型训练可以借鉴物理学中的优化方法。马尔科夫随机场和无向图RBM 也是马尔科夫随机场Markov Random Field, MRF的一种特例利用无向图来表示神经元之间的关系。这种图模型的设计结合了物理学中相互作用系统的思想使得模型不仅具备了概率解释还可以通过采样和推断来学习复杂的数据分布。通过将统计物理的能量模型和概率分布直接应用到神经网络中RBM 为机器学习领域开辟了一个新的建模思路。这种跨学科的应用展示了物理学和机器学习的深度关联也为后来各种能量模型和生成模型奠定了基础。2.8.2 深度神经网络的高效训练在深度学习初期训练深层神经网络一直是个难题尤其是由于梯度消失问题深层网络的训练效率和效果非常差。RBM 的引入带来了逐层预训练的方法这在当时是一个极具突破性的策略逐层训练RBM 可以堆叠成深度信念网络DBN每一层都是一个 RBM。通过逐层训练每层 RBM 只需处理自身的输入数据和输出特征这大大简化了训练过程。每层独立训练完成后再将它们组合起来进行整体微调finetuning从而解决了深度网络整体训练难的问题。对比散度算法Contrastive Divergence, CDHinton 提出的 CD 算法大大提高了 RBM 的训练效率。这种基于 Gibbs 采样的近似优化方法允许每一层快速收敛从而逐层训练深层网络的每一部分为深度学习提供了一种高效训练方法。RBM 的逐层训练和优化策略是后来深度神经网络高效训练的先驱并为后续的 CNN、RNN 等深度模型的优化提供了启示。2.8.3 生成模型Generative Model通过生成数据去理解数据的想法RBM 本质上是一个生成模型。它通过学习数据的概率分布能够生成与训练数据相似的新样本。这种生成思路开创了通过生成数据来理解数据的先河概率建模RBM 通过构建一个可见层输入和隐藏层特征的概率分布来学习数据的内在结构。训练完成后模型可以根据这个分布生成新的数据样本。比如在 MNIST 数据集上训练的 RBM 可以生成新的手写数字图像这些图像与真实数据非常相似。理解数据结构通过生成模型RBM 可以揭示数据的内在规律。例如通过对自然图像的 RBM 训练可以发现模型学会了图像的基本特征如边缘和纹理。这种生成方法不仅是对数据分布的模拟还揭示了数据的内在结构使模型能够在没有标签的情况下自动获取有意义的特征。RBM 的生成能力影响了后来许多深度学习模型的发展如变分自动编码器VAE和生成对抗网络GAN它们也通过类似的方法生成和理解数据。2.8.4 预训练Pretraining在 RBM 提出之前深度神经网络的训练效率很低。RBM 引入了一种预训练的方式来有效地训练深度网络。Hinton 发现先使用 RBM 进行无监督预训练再使用有标签数据进行微调finetuning可以显著提高网络的性能和稳定性逐层无监督预训练先使用 RBM 在大量无标签数据上逐层训练网络从输入层到隐藏层依次学习每一层的特征表示。这样网络在初始阶段就已经形成了较好的特征结构。有监督微调在预训练完成后再使用有标签数据对整个网络进行监督微调。这种方式避免了网络从随机初始化开始学习的困难使得深层神经网络更易于训练。这种预训练方法在深度学习的发展中非常关键因为它为深层神经网络的训练提供了一个切实可行的路径。在计算能力和数据资源有限的时代这种方法极大地提升了网络的性能和可用性也为现代深度学习中预训练和迁移学习的概念奠定了基础。2.8.5 无监督学习RBM 是一种无监督学习模型它不依赖于数据的标签信息而是通过学习输入数据的分布来提取特征无标签特征提取RBM 通过输入层和隐藏层的相互作用自动学习输入数据的特征表示。例如在手写数字图像上RBM 可以自动识别图像中的基本特征如边缘、角等而不需要任何标签信息。在大规模数据上的应用由于无监督学习不需要大量标注数据RBM 可以广泛应用于大规模数据集上从中学习有意义的特征。这一方法在当时为解决数据标注困难的问题提供了一个非常有效的解决方案。RBM 的无监督学习能力为深度学习的发展带来了极大的启发。它不仅推动了后续自监督学习和半监督学习的研究还展示了如何在没有标签的情况下进行高效训练。2.8.6 表征学习Representation LearningRBM 通过其隐藏层的特征提取能力展示了如何从数据中学习有意义的表示。它不仅仅是简单地分类或回归而是从输入数据中提取更高级、更抽象的特征这就是表征学习逐层特征提取RBM 可以看作是特征提取器的一个层级每一层都从上一层学习到的特征中提取更高阶的信息。通过堆叠多个 RBM形成深度信念网络DBN可以学习到更加抽象的特征层次。这种逐层的特征提取为深度学习网络的表征学习奠定了基础。数据本身的高级特征表示RBM 在训练过程中不仅能够识别数据的低层次特征如边缘或形状还能学习到数据的更高层次表示如面部特征或复杂模式。通过这种特征提取方法RBM 让网络逐渐从学习数据本身转向学习数据的高级表征。表征学习的思想在现代深度学习中广泛应用比如在卷积神经网络CNN中学习图像的特征层次、在自然语言处理中使用嵌入来表示词语和句子的语义关系等。2.8.7 神经网络特征的可解释性RBM 的特征学习方法不仅可以帮助理解数据还可以生成新的数据样本从而揭示网络中学到的特征。Hinton 提到可以通过生成样本的方式来解释隐藏层的特征这就是神经网络特征的可解释性生成图像解释特征RBM 可以通过隐藏层的激活状态生成图像这些生成的图像反映了网络在隐含层中学到的特征表示。例如在 MNIST 数据集上训练的 RBM 可以生成与原始手写数字相似的图像这些图像展示了网络如何将输入的图像特征进行组合。非线性特征的解释通过观察 RBM 的输出可以推测出哪些特征在网络中被学习和组合。这使得我们能够从生成的样本中理解网络在处理数据时捕捉到的非线性关系。RBM 的这种特征解释方法为神经网络的可解释性研究提供了新的方向也为后续解释深度学习特征的方法如可视化卷积层提供了启发。3 为什么 MLP 重新崛起并在现代深度学习中更为通用3.1 计算能力的提升随着 21 世纪初期计算硬件特别是 GPU 和分布式计算的快速发展大规模并行计算成为可能这极大地提高了训练深度神经网络如 MLP的效率。强大的计算资源使得训练深层 MLP 成为可能不再受限于计算瓶颈。更复杂、更大规模的 MLP 可以在合理的时间内完成训练并展示其强大的性能。3.2 现代优化算法的引入反向传播算法在原始版本中容易出现梯度消失问题但后来研究人员引入了一些改进技术例如 ReLU 激活函数避免梯度消失、批量归一化Batch Normalization和高级优化器如 Adam、RMSprop 等使得训练深层网络更加稳定和高效。这些改进极大地提升了 MLP 训练的可行性和效果使得深层 MLP 成为许多任务的首选架构。3.3 大数据和标注数据集的可用性随着互联网的普及和大数据的发展越来越多的标注数据集变得可用如 ImageNet 等这为深度神经网络的监督训练提供了大量数据支持。MLP 这种需要大量数据进行监督学习的模型在这个环境下表现出色。与早期的 RBM 不同MLP 通过大数据和大规模监督学习能够比 RBM 学到更精细和强大的特征表示并在复杂任务如图像识别、语音识别、自然语言处理中表现出更好的性能。3.4 深度学习架构的扩展和创新现代的许多神经网络架构如卷积神经网络 CNN、循环神经网络 RNN、以及 Transformer 等都是在 MLP 的基础上进行扩展和改进的。这些架构结合了 MLP 的多层结构并针对不同数据类型如图像、序列数据进行了专门优化。MLP 的灵活性和扩展性使得它能够很好地适应各种任务和数据类型从而成为现代深度学习的核心基础架构。Hopfield 网络和 RBM 为神经网络的发展打下了重要基础但它们的适用范围和扩展性、能力上限不如 MLP因此在现代深度学习的背景下以MLP为代表的以反向传播梯度更新为基础的神经网络更加通用并成为主流。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2596228.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！