深度学习三次浪潮、三大驱动力与神经科学的恩怨(二)

news2026/3/27 19:02:48

1. 一个领域多个名字很多人以为深度学习是一个全新的领域。事实上它的历史可以追溯到 20 世纪 40 年代——只不过在不同时期它被叫过完全不同的名字1940s-1960s被称为控制论Cybernetics1980s-1990s被称为联结主义Connectionism/ 并行分布处理PDP2006-至今才以深度学习Deep Learning之名广为人知如果你用 Google 图书搜索控制论、联结主义和神经网络这三个词的出现频率会看到两座清晰的历史山峰——分别对应前两次浪潮。第三座山峰正是当下。每次更名的背后不仅仅是换了个标签更反映了研究社群的哲学立场在变化从试图模拟大脑到追求工程实用性再到强调多层次组合学习这一更普遍的原理。2. 第一次浪潮1940s-1960s控制论2.1 起源模拟大脑最早的学习算法旨在回答一个根本性问题大脑是怎样学习的为什么能学习研究者们设计了简单的线性模型给定nnn个输入x1,x2,...,xnx₁, x₂, ..., xₙx1,x2,...,xn学习一组权重w1,w2,...,wnw₁, w₂, ..., wₙw1,w2,...,wn计算输出f(x,w)x1w1x2w2...xnwnf(x, w) x₁w₁ x₂w₂ ... xₙwₙf(x,w)x1w1x2w2...xnwn2.2 三个里程碑模型① McCulloch-Pitts 神经元1943这是最早的脑功能计算模型。它通过检验 f(x,w) 的正负来识别两类输入——正值归为一类负值归为另一类。但权重必须由人工设定无法自动学习。② 感知机 Perceptron1950sFrank Rosenblatt 发明的感知机是历史上第一个能从数据中自动学习权重的模型。这是一个真正的里程碑——从人工设定参数到从样本自动调参的跨越。③ 自适应线性单元 ADALINE约同一时期ADALINE 直接返回 f(x) 的值而不是正负号来预测一个实数值。更重要的是用于调节 ADALINE 权重的训练算法就是随机梯度下降SGD的一种特例。稍加改进后的 SGD 至今仍是深度学习的主要训练算法。这意味着现代深度学习的训练核心在 1950 年代就已经埋下了种子。2.3 致命缺陷XOR 问题这些模型本质上都是线性模型f(x, w) Σxᵢwᵢ。线性模型的根本局限在于它们只能学习线性可分的函数。1969 年Minsky 和 Papert 在著作《Perceptrons》中指出了一个致命案例——异或XOR函数f([0,1],w)1f([1,0],w)1f([0,1], w) 1 f([1,0], w) 1f([0,1],w)1f([1,0],w)1f([1,1],w)0f([0,0],w)0f([1,1], w) 0 f([0,0], w) 0f([1,1],w)0f([0,0],w)0不存在任何一组权重 w 能让线性模型正确计算 XOR。这个结论被过度推广——批评者对整个受生物学启发的学习产生了普遍的抵触导致了第一次 AI 寒冬。2.4 给今天的启示但指出一个深刻的事实线性模型尽管不能解决 XOR但至今仍是最广泛使用的机器学习模型之一比如逻辑回归就是线性模型加 sigmoid。XOR 问题暴露的不是线性模型无用而是单独一个线性模型不够用——你需要多层组合也就是深度。第6章将详细展示如何用一个两层网络完美解决 XOR。3. 第二次浪潮1980s-1990s联结主义3.1 认知科学的背景联结主义Connectionism是在认知科学的背景下出现的。1980 年代初期大多数认知科学家研究符号推理模型。但符号模型面临一个核心困境它们无法解释大脑如何用神经元来实现推理功能。联结主义者的核心信念当网络将大量简单的计算单元连接在一起时可以实现智能行为。这个信念同时适用于生物神经元和计算模型中的隐藏单元。很多复苏的想法可以追溯到心理学家 Donald Hebb 在 1940 年代的工作“一起放电的神经元会连在一起”即 Hebb 学习规则。3.2 关键突破一反向传播算法反向传播Backpropagation使得训练具有隐藏层的深度神经网络成为可能。它高效地计算损失函数对每个权重的梯度从而让 SGD 知道该如何调整每一个参数。虽然这个算法后来一度被遗忘但截至今日它仍然是训练深度模型的主导方法。第6章将完整推导反向传播的数学细节。3.3 关键突破二分布式表示这是联结主义时期贡献的最重要概念之一也是全书的核心主题。核心思想系统的每一个输入都应该由多个特征表示每一个特征都应该参与到多个输入的表示具体例子假设视觉系统需要识别 3 种颜色红/绿/蓝× 3 种物体汽车/卡车/鸟类 9 种组合。局部表示方案为每种组合分配一个独立的神经元——红汽车、红卡车、红鸟、绿汽车……共需要9 个神经元。问题是每个神经元都必须独立学习颜色和物体身份的概念它从红汽车的图片中学到的红色知识无法传递给识别红鸟的神经元。分布式表示方案用 3 个神经元编码颜色3 个神经元编码物体身份只需要6 个神经元。关键优势是描述红色的那个神经元能够从汽车、卡车和鸟类的所有红色图像中学习红色的概念——知识是跨类别共享的。深远影响如果有 100 种颜色和 100 种物体——局部表示需要 100 × 100 10,000 个神经元分布式表示只需要 100 100 200 个神经元这就是为什么分布式表示具有指数级的组合优势——它用线性的资源编码了指数级的组合。这个概念贯穿全书在第15章还将深入展开。3.4 关键突破三LSTM1997在 1990 年代研究者发现用神经网络建模长序列时会遇到根本性的数学难题——梯度消失和梯度爆炸问题Hochreiter, 1991; Bengio, 1993。1997 年Hochreiter 和 Schmidhuber 提出了**长短期记忆网络LSTM**来解决这些难题。LSTM 通过精妙的门控机制让信息能够在很长的时间步上稳定地传递。如今 LSTM 在许多序列任务中广泛应用。第10章将完整剖析它的结构。3.5 衰退的双重打击打击一商业泡沫破裂1990 年代中期基于神经网络和其他 AI 技术的创业公司开始寻求投资做法野心勃勃但不切实际。当 AI 研究不能实现这些不合理的期望时投资者彻底失望。打击二竞争对手崛起与此同时机器学习的其他领域取得了显著进步核方法SVM在分类和回归任务上效果卓越图模型贝叶斯网络/马尔可夫随机场在概率推理任务上很成功这两个因素共同导致了第二次衰退并一直持续到 2007 年。3.6 低谷中的坚守者在漫长的低谷期加拿大高级研究所CIFAR的 NCAP 研究计划是最重要的火种守护者。它联合了三位后来被称为深度学习三巨头的研究者研究者所在大学后来的贡献Geoffrey Hinton多伦多大学2006年深度信念网络引爆第三次浪潮Yoshua Bengio蒙特利尔大学神经语言模型、GAN理论、注意力机制Yann LeCun纽约大学LeNet卷积网络、自监督学习三人于 2018 年共同获得图灵奖。没有 CIFAR 在低谷期的资助可能就没有深度学习的第三次浪潮。4. 第三次浪潮2006-至今深度学习4.1 引爆点2006 年的突破在那个时候人们普遍认为深度网络是难以训练的。但 Geoffrey Hinton 在 2006 年证明了一种名为**深度信念网络DBN的模型可以用贪婪逐层预训练Greedy Layer-wise Pretraining**策略有效训练。核心思想不要试图一次性训练整个深度网络这会失败而是先训练第一层作为一个受限玻尔兹曼机 RBM固定第一层用第一层的输出作为输入来训练第二层逐层向上每次只训练一层最后用反向传播对整个网络进行微调其他 CIFAR 附属研究组很快证明同样的策略可以训练多种类型的深度网络。深度神经网络开始全面优于基于手工特征的传统方法。4.2 一个深刻的认知转变有一句极其重要的话“目前在复杂任务达到人类水平的学习算法与 1980 年代努力解决玩具问题的学习算法几乎是一样的。最重要的新进展是现在我们有了这些算法得以成功训练所需的资源。”这句话道破了一个被很多人忽视的真相不是算法突然变聪明了而是数据、算力和工程实践终于追上了算法的需求。4.3 第三次浪潮的研究重心变迁2006-2012无监督预训练是关键技术研究重点在如何训练深度网络2012-至今监督学习大数据成为主流预训练不再是必需品但在 NLP 领域预训练后来以 BERT/GPT 的形式强势回归新兴方向无监督学习、小数据集的泛化能力5. 驱动力 1与日俱增的数据量5.1 为什么数据这么重要人工神经网络的第一个实验在 1950 年代就完成了但为什么直到最近才变成关键技术给出的核心解释“随着训练数据的增加所需的技巧正在减少。”在小数据时代要让深度学习工作需要极高的工程技巧——选择正确的架构、正则化策略、学习率调度、预训练方案……这让它看起来只有专家才能用的艺术。但当数据足够多时粗糙的模型也能表现得很好因为统计估计的核心负担从少量观察推广到新数据被大大减轻了。5.2 数据量增长史时代数据规模代表数据集特点20世纪初数百~数千手动度量人工收集1950s-1980s几十~几百合成字母位图验证网络能学习1980s-1990s数万MNIST6万手写数字扫描2000s初数万CIFAR-106万彩色小图2010s数百万~数千万ImageNet1400万、Street View House Numbers、Sports-1M社会数字化驱动机器翻译数亿句对WMT英法、Canadian Hansard远超其他任务关键经验法则截至 2016每类~5,000个标注样本 → 可接受的性能~10,000,000个标注样本 → 达到或超过人类表现5.3 MNIST——“机器学习的果蝇”Geoffrey Hinton 将 MNIST 数据集比作机器学习的果蝇。就像生物学家用果蝇做实验因为它生命周期短、基因组小、容易操控机器学习研究者可以在 MNIST 这个受控环境下快速验证算法思路。尽管现代技术已经可以轻松解决 MNIST它仍然是最广泛使用的基准测试之一。6. 驱动力 2与日俱增的模型规模6.1 核心见解规模产生智能联结主义给我们的最重要启示之一当动物的许多神经元一起工作时才会变得聪明。单独神经元或小集合的神经元不是特别有用。这不仅是哲学观点更是数量上的硬性要求。6.2 增长数据自引入隐藏单元以来人工神经网络的规模大约每 2.4 年翻一倍每个神经元的连接数已与猫的大脑在同一数量级但在神经元总数上直到最近的网络都惊人地小即使很大的现代网络实际上比青蛙的神经系统还小按目前趋势至少要到2050 年代人工神经网络才能具备与人脑相同数量级的神经元“其神经元比一个水蛭还少的神经网络不能解决复杂的人工智能问题这是不足为奇的。”6.3 增长的驱动力因素贡献更快的 CPU单核性能每年提升通用 GPU 的出现并行计算能力指数级提升更快的网络连接分布式训练成为可能更好的分布式计算软件多机多卡协调训练7. 驱动力 3与日俱增的精度和应用复杂度7.1 图像识别的进化年代能力边界最早期识别裁剪紧凑的小图中的单个对象中期更大尺寸的图像2012高分辨率照片、1000 类别、无需裁剪ImageNet ILSVRC 竞赛——深度学习的出道舞台年份方法Top-5 错误率2011年及之前传统特征工程~26.1%2012年AlexNetCNN~15.3%此后每年更深的CNN持续下降截至写书时残差网络~3.6%从 26.1% 到 15.3%——这不是小幅改进而是一夜之间将错误率几乎砍半。这是深度学习登上历史舞台的标志性时刻。7.2 语音识别的跳跃语音识别在 1990 年代提高后直到约 2000 年都处于停滞不前的状态。深度学习的引入使得错误率陡然下降有些甚至降低了一半。7.3 任务复杂度的五级跳清晰地展示了深度学习处理的任务如何一步步变得更复杂第一级单对象识别从裁剪好的小图中识别一个物体。第二级整个字符序列输出Goodfellow 等人2014证明神经网络可以直接输出描述图像的完整字符序列如门牌号1847而不需要逐个字符标注。第三级序列到序列学习Seq2SeqLSTM 等循环网络用于对序列之间的关系建模引领了机器翻译的颠覆性发展。输入一个法语句子输出对应的英语翻译。第四级神经图灵机能学习读写存储单元的神经网络。可以从输入一堆乱序数字→输出排好序的数字这样的样本中自动学习排序算法。这是自我编程的雏形。第五级深度强化学习DeepMind 的系统学会玩 Atari 视频游戏并匹敌人类。自主的智能体通过试错学习无需人类指导。7.4 工业应用与科学贡献工业落地Google、Microsoft、Facebook、IBM、Baidu、Apple、Adobe、Netflix、NVIDIA、NEC 等全面采用。软件框架的发展Theano → PyLearn2 → Torch → Caffe → DistBelief → MXNet → TensorFlow时间线此后还有 PyTorch 等科学贡献药物发现预测分子相互作用粒子物理搜索亚原子粒子神经科学解析构建人脑三维图的显微镜图像计算神经科学卷积网络为研究视觉处理提供了计算模型8. 神经科学与深度学习灵感而非蓝图8.1 神经科学提供了什么① 可行性证明大脑的存在证明了智能行为是可能的。概念上建立智能的直接途径是逆向大脑背后的计算原理。② 通用算法假说——雪貂实验神经学家将雪貂的大脑重新接线使视觉信号传送到听觉处理区域。结果雪貂竟然学会了用听觉区域看东西。这个实验暗示了一个惊人的可能大多数哺乳动物的大脑可能使用一种通用的学习算法来处理不同的感知任务。在此之前AI 研究是分散的——不同社群分别研究 NLP、视觉、语音。这个发现启发了一种统一的方法论也许存在一个算法可以同时处理所有这些任务。③ 架构灵感新认知机Neocognitron, 1980受哺乳动物视觉系统的结构启发——视觉皮层中简单细胞检测边缘、复杂细胞实现平移不变性。它后来成为现代**卷积网络CNN**的基础。整流线性单元ReLU原始认知机受大脑功能知识启发引入了复杂的版本。简化的现代版ReLU吸收了来自神经科学和工程两个方向的思想。8.2 神经科学不提供什么非常明确地划定了边界“大家不应该认为深度学习在尝试模拟大脑。”原因一信息不足要深刻理解大脑使用的算法需要同时监测至少数千相连神经元的活动。我们做不到这一点——甚至连大脑最简单、最深入研究的部分都远远没有理解。原因二更像生物 ≠ 更好真实的神经元计算着与整流线性单元非常不同的函数但更接近生物神经元的模型并没有导致机器学习性能的提升。原因三架构有灵感算法没有神经科学成功地启发了一些网络架构如 CNN但我们对大脑的生物学习机制了解不够因此无法为训练算法提供太多借鉴。原因四灵感来源是多元的现代深度学习从许多领域获取灵感特别是应用数学的基本内容——线性代数、概率论、信息论和数值优化。有些深度学习研究者完全不关心神经科学。8.3 深度学习 vs 计算神经科学维度深度学习计算神经科学目标构建能解决智能任务的计算机系统构建大脑真实工作机制的精确模型标准任务性能准确率等生物真实性态度大脑是灵感之一但不是唯一指导大脑是研究对象本身交集研究人员在两个领域间来回穿梭是常见的9. 全章总结深度学习的本质最后一段给出了精炼的总结“深度学习是机器学习的一种方法。在过去几十年的发展中它大量借鉴了我们关于人脑、统计学和应用数学的知识。近年来得益于更强大的计算机、更大的数据集和能够训练更深网络的技术深度学习的普及性和实用性都有了极大的发展。”一句话概括深度学习的本质它是一种通过多层次的简单表示来逐步构建复杂抽象的机器学习方法用嵌套的层级概念体系来理解世界。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2455373.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！