探索大语言模型(LLM):循环神经网络的深度解析与实战(RNN、LSTM 与 GRU)

news2025/5/18 2:15:31

一、循环神经网络(RNN)

1.1 基本原理

循环神经网络之所以得名,是因为它在处理序列数据时,隐藏层的节点之间存在循环连接。这意味着网络能够记住之前时间步的信息,并利用这些信息来处理当前的输入。
想象一下,我们正在处理一段文本,每个单词就是一个时间步的输入。RNN 在读取每个单词时,不仅会考虑当前单词的含义,还会结合之前已经读过的单词信息,从而更好地理解整个句子的语境。
用数学公式来表示,假设我们有一个输入序列 x 1 , x 2 , . . . , x T x_1,x_2,...,x_T x1,x2,...,xT,在时间步t,RNN 的隐藏状态 h t h_ t ht的计算方式如下: h t = σ ( W x h x t + W h h h t − 1 + b h ) h_t=σ(W_{xh}x_t+W_{hh}h_{t−1}+b_h) ht=σ(Wxhxt+Whhht1+bh)
其中,σ是激活函数(通常为 tanh 或 sigmoid), W x h W_{xh} Wxh是输入到隐藏层的权重矩阵, W h h W_{hh} Whh是隐藏层到隐藏层的权重矩阵, b h b_h bh是偏置项。输出 y t y_t yt通常通过以下公式计算:
y t = W h y h t + b y ​ y_t =W_{hy}h_t+b_y ​ yt=Whyht+by

这里 W h y W_{hy} Why是隐藏层到输出层的权重矩阵, b y b_y by是输出层的偏置项。

1.2 前向传播过程

以前文提到的文本处理为例,假设我们有一个简单的句子 “我喜欢深度学习”,我们将每个单词通过词向量表示后作为输入 x t x_t xt依次输入到 RNN 中。在第一个时间步,输入 “我” 对应的词向量 x 1 x_1 x1,结合初始隐藏状态 h 0 h_0 h0(通常初始化为零向量),通过上述公式计算得到隐藏状态 h 1 h_1 h1。接着,输入 “喜欢” 对应的词向量 x 2 x_2 x2,此时结合 h 1 h_1 h1计算 h 2 h_2 h2,以此类推,直到处理完整个句子。最终的隐藏状态
h T h_T hT可以用于预测句子的情感倾向(比如是积极还是消极)等任务。

1.3 训练过程

RNN 的训练通常使用反向传播通过时间(Backpropagation Through Time, BPTT)算法。BPTT 算法本质上是标准反向传播算法在时间序列上的扩展。它通过计算损失函数(比如交叉熵损失)关于网络参数( W x h W_{xh} Wxh , W h h W_{hh} Whh , W h y W_{hy} Why , b h b_h bh , b y b_y by等)的梯度,然后使用梯度下降等优化算法来更新参数,使得损失函数逐渐减小。在计算梯度时,由于隐藏层状态在时间步之间的循环连接,梯度会在时间维度上进行反向传播,这也是 BPTT 名称的由来。

1.4 面临的挑战

RNN 虽然具有记忆能力,但在处理长序列时,会面临梯度消失或梯度爆炸的问题。简单来说,当反向传播的时间步数增多时,梯度在传递过程中可能会变得非常小(梯度消失),导致前面时间步的信息对当前时间步的影响几乎可以忽略不计,使得模型难以学习到长距离的依赖关系;或者梯度变得非常大(梯度爆炸),导致参数更新不稳定,模型无法正常训练。

挑战类型描述对模型的影响
梯度消失反向传播时梯度逐渐变小难以学习长距离依赖关系,模型性能下降
梯度爆炸反向传播时梯度逐渐变大参数更新不稳定,模型无法正常训练

二、长短期记忆网络(LSTM)

2.1 结构与原理

为了解决 RNN 的梯度问题,LSTM 应运而生。LSTM 引入了一种特殊的结构 —— 细胞状态(Cell State),它就像一条信息高速公路,能够让信息在序列中相对轻松地流动,从而有效捕捉长期依赖关系。
LSTM 通过三个门来控制细胞状态中的信息:遗忘门(Forget Gate)、输入门(Input Gate)和输出门(Output Gate)。
遗忘门决定从上一个时间步的细胞状态 C t − 1 C_{t−1} Ct1中丢弃哪些信息,其计算公式为:
f t = σ ( W x f x t + W h f h t − 1 + b f ) f_t=σ(W_{xf}x_t+W_{hf}h_{t−1}+b_f) ft=σ(Wxfxt+Whfht1+bf)
这里 W x f , W h f , b f W_{xf} ,W_{hf} ,b_f Wxf,Whf,bf分别是遗忘门对应的权重矩阵和偏置项。
输入门决定将哪些新信息添加到细胞状态中,它由两部分组成。首先是输入门值 i t i_t it,计算公式为:
i t = σ ( W x i x t + W h i h t − 1 + b i ) i_t=σ(W_{xi}x_t+W_{hi}h_{t−1}+b_i) it=σ(Wxixt+Whiht1+bi)
然后是候选细胞状态 C ~ t \tilde C_t C~t,计算公式为:
C ~ t = t a n h ( W x C x t + W h C h t − 1 + b C ) \tilde C_t =tanh(W_{xC}x_t+W_{hC}h_{t−1}+b_C) C~t=tanh(WxCxt+WhCht1+bC)
最终更新后的细胞状态 C t C_t Ct为:
C t = f t ⊙ C t − 1 + i t ⊙ C ~ t C_t =f_t ⊙C_{t−1} +i_t⊙ \tilde C_t Ct=ftCt1+itC~t
其中 ⊙ ⊙ 表示逐元素相乘。
输出门决定细胞状态的哪些部分将作为当前时间步的输出 h t h_t ht,计算公式为:
o t = σ ( W x o x t + W h o h t − 1 + b o ) o_t=σ(W_{xo}x_t+W_{ho}h_{t−1}+b_o) ot=σ(Wxoxt+Whoht1+bo)
然后当前时间步的隐藏状态 h t h_t ht为:
h t = o t ⊙ t a n h ( C t ) h_t=o_t⊙tanh(C_t) ht=ottanh(Ct)
LSTM 结构示意图:

image

2.2 工作流程

在每个时间步,LSTM 首先通过遗忘门决定保留或丢弃上一个时间步细胞状态中的哪些信息。然后通过输入门和候选细胞状态决定添加哪些新信息到细胞状态中。更新完细胞状态后,再通过输出门决定输出哪些信息作为当前时间步的隐藏状态。这个过程不断重复,使得 LSTM 能够有效处理长序列数据。

2.3 应用案例 - 股价预测

假设我们要预测某只股票未来的价格走势。我们将过去一段时间(比如 100 天)的股票价格作为输入序列,通过 LSTM 模型进行训练。在训练过程中,LSTM 可以学习到股票价格之间的长期依赖关系,比如某些宏观经济因素对股价的长期影响。当训练完成后,我们可以输入最近一段时间的股价,让模型预测未来几天的股价。与传统的时间序列预测方法相比,LSTM 能够更好地捕捉股价波动中的复杂模式,从而提高预测的准确性。


三、门控循环单元(GRU)

3.1 结构与原理

GRU 可以看作是 LSTM 的简化版本。它将 LSTM 中的遗忘门和输入门合并为一个更新门(Update Gate),同时取消了单独的细胞状态,直接通过隐藏状态传递信息。
更新门 z t z_t zt的计算公式为:
z t = σ ( W x z x t + W h z h t − 1 + b z ) z_t=σ(W_{xz}x_t+W_{hz}h_{t−1}+b_z) zt=σ(Wxzxt+Whzht1+bz)
重置门(Reset Gate) r t r_t rt的计算公式为:
r t = σ ( W x r x t + W h r h t − 1 + b r ) r_t=σ(W_{xr}x_t +W_{hr} h_{t−1} +b_r) rt=σ(Wxrxt+Whrht1+br)
候选隐藏状态 h ~ t \tilde h_t h~t的计算公式为:
h ~ t = t a n h ( W x h x t + r t ⊙ ( W h h h t − 1 ) + b h ) \tilde h_t=tanh(W_{xh}x_t +r_t ⊙(W_{hh}h_{t−1})+b_h) h~t=tanh(Wxhxt+rt(Whhht1)+bh)
最终的隐藏状态 h t h_t ht 为:
h t = ( 1 − z t ) ⊙ h t − 1 + z t ⊙ h ~ t ​ h_t =(1−z_t )⊙h_{t−1} +z_t ⊙\tilde h_t ​ ht=(1zt)ht1+zth~t
GRU 结构示意图:

image

3.2 与 LSTM 的比较

与 LSTM 相比,GRU 结构更简单,参数更少,因此训练速度更快。在一些对实时性要求较高或者数据量较小的场景中,GRU 可能会表现得更好。但在处理非常复杂的长序列数据时,LSTM 由于其更精细的门控机制,可能会取得更好的效果。

模型结构特点参数数量训练速度适用场景
LSTM有细胞状态,三个门控较多较慢复杂长序列数据
GRU无细胞状态,两个门控较少较快实时性要求高或数据量小

3.3 应用案例 - 实时语音识别

在实时语音识别系统中,需要快速处理连续的语音流数据。GRU 由于其简单高效的结构,能够在保证一定准确率的前提下,快速对语音数据进行处理和识别。它可以实时地将输入的语音信号转换为文字,满足人们在语音交互场景中的需求。


总结

循环神经网络(RNN)为处理序列数据提供了基础框架,但其在长序列处理上的局限性促使了长短期记忆网络(LSTM)和门控循环单元(GRU)的诞生。LSTM 通过精细的门控机制和细胞状态,有效地解决了梯度问题,能够处理复杂的长序列数据。GRU 则在保持一定性能的同时,通过简化结构提高了训练效率。在实际应用中,我们需要根据具体任务的特点和需求,选择合适的模型。希望通过本文的介绍,你对 RNN、LSTM 和 GRU 有了更深入的理解,并能够在自己的项目中灵活运用它们。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2337810.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

山东大学软件学院创新项目实训开发日志(15)之中医知识问答历史对话查看bug处理后端信息响应成功但前端未获取到

在开发中医知识问答历史对话查看功能的时候,出现了前后端信息获取异同的问题,在经过非常非常非常艰难的查询之后终于解决了这一问题,而这一问题的罪魁祸首就是后端没有setter和getter方法!!!!&a…

优先级队列的实模拟实现

优先级队列底层默认用的是vector来存储数据,实现了类似我们数据结构中学习过的堆的队列,他的插入和删除都是优先级高先插入和删除。下面我们来模拟实现它们常见的接口来熟悉优先级队列。 仿函数 在介绍优先级队列之前,我们先熟悉一个概念&a…

swagger 导入到apipost中

打开swagger json链接 保存到本地转为json格式文件 上传文件就行

熵权法+TOPSIS+灰色关联度综合算法(Matlab实现)

熵权法TOPSIS灰色关联度综合算法(Matlab实现) 代码获取私信回复:熵权法TOPSIS灰色关联度综合算法(Matlab实现) 摘要: 熵权法TOPSIS灰色关联度综合算法(Matlab实现)代码实现了一种…

利用deepseek+Mermaid画流程图

你是一个产品经理,请绘制一个流程图,要求生成符合Mermaid语法的代码,要求如下: 用户下载文件、上传文件、删除文件的流程过程符合安全规范细节具体到每一步要做什么 graph LRclassDef startend fill:#F5EBFF,stroke:#BE8FED,str…

leetcode0146. LRU 缓存-medium

1 题目:LRU 缓存 官方标定难度:中 请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。 实现 LRUCache 类: LRUCache(int capacity) 以 正整数 作为容量 capacity 初始化 LRU 缓存 int get(int key) 如果关键字 key 存在于缓…

SuperMap iClient3D for WebGL 如何加载WMTS服务

在 SuperMap iClient3D for WebGL 中加载WMTS服务时,参数配置很关键!下面我们详细介绍如何正确填写参数,确保影像服务完美加载。 一、数据制作 对于上述视频中的地图制作,此处不做讲述,如有需要可访问:Onl…

组件自身如何向外暴露一个子组件

最近在开发是遇到一个问题,原本是在组件内的一个功能被ui设计稿给搞到了外面,产品也不同意放在子组件内。于是一个问题就来,抽出来放到外面的部分依赖的也是组件内部的数据和逻辑,所以如果外面再重写这一部分,显然浪费感情,并且又要把依赖关系挪出去,也不划算。 于是,…

《软件设计师》复习笔记(11.4)——处理流程设计、系统设计、人机界面设计

目录 一、业务流程建模 二、流程设计工具 三、业务流程重组(BPR) 四、业务流程管理(BPM) 真题示例: 五、系统设计 1. 主要目的 2. 设计方法 3. 主要内容 4. 设计原则 真题示例: 六、人机界面设…

深入解析B站androidApp接口:从bilibili.api.ticket.v1.Ticket/GetTicket到SendMsg的技术分析

前言 最近一段时间,我对B站的App接口进行了深入分析,特别是关注了认证机制和私信功能的实现。通过逆向工程和网络抓包,发现了B站移动端API的底层工作原理,包括设备标识生成机制、认证流程和消息传输协议。本文将分享这些研究成果…

UWP发展历程

通用Windows平台(UWP)发展历程 引言 通用Windows平台(Universal Windows Platform, UWP)是微软为实现"一次编写,处处运行"的愿景而打造的现代应用程序平台。作为微软统一Windows生态系统的核心战略组成部分,UWP代表了从传统Win32应用向现代应…

数据库相关概念,关系型数据库的核心要素,MySQL(特点,安装,环境变量配置,启动,停止,客户端连接),数据模型

目录 数据库相关概念 MySQL(特点,安装,环境变量配置,启动和停止,客户端连接) MySQL数据库的特点 Windows下安装MySQL MySQL 8.0.36(安装版) MySQL安装 配置Path环境变量 MySQ…

Facebook隐私保护:从技术到伦理的探索

在这个数字化时代,隐私保护已成为公众关注的焦点。Facebook,作为全球最大的社交媒体平台之一,其用户隐私保护问题更是引起了广泛的讨论。本文将从技术层面和伦理层面探讨 Facebook 在隐私保护方面的努力和挑战。 技术层面的隐私保护 在技术…

香港服务器CPU对比:Intel E3与E5系列核心区别与使用场景

香港服务器的 CPU 配置(核心数与主频)直接决定了其并发处理能力和数据运算效率,例如高频多核处理器可显著提升多线程任务响应速度。在实际业务场景中,不同负载需求对 CPU 架构的要求存在显著差异——以 Intel E3 和 E5 系列为例,由于两者在性…

ChatGPT-o3辅助学术大纲效果如何?

目录 1 引言 2 背景综述 2.1 自动驾驶雷达感知 2.2 生成模型演进:从 GAN 到 Diffusion 3 相关工作 3.1 雷达点云增强与超分辨率 3.2 扩散模型在数据增广中的应用 4 方法论 4.1 问题定义与总览 4.2 数据预处理与雷达→体素表示 4.3 潜在体素扩散网络&…

AI大模型API文档的核心内容概述,以通用框架和典型实现为例

以下是AI大模型API文档的核心内容概述,以通用框架和典型实现为例: 一、API基础架构 1. 基础信息 API类型:RESTful API或gRPC(如阿里云通义千问支持HTTPS接口)请求方式:通常为POST方法基础URL&#xff1a…

使用pnpm第一次运行项目报错 ERR_PNPM_NO_PKG_MANIFEST No package.json found in E:\

开始用unibestpnpm写一个小程序 运行pnpm init报错 如标题所示没有package.json这个文件 博主犯了一个很愚蠢的错误。。 准备方案手动创建一个json文件 此时才发现没到根目录下,创建了一个项目之后就没有切入文件夹里。 切入根目录再下载就成功啦

手持式三维扫描设备赋能智能汽车制造

随着电动化与智能化趋势的加速,传统逆向工程手段已难以满足复杂零部件的建模需求。 ‌3D逆向建模‌技术,为汽车制造企业提供高效、精准的数字化解决方案。 传统汽车零部件的尺寸检测与建模依赖三坐标测量机(CMM)或人工测绘&#…

Hutool之DateUtil:让Java日期处理变得更加简单

前言 在Java开发中,日期和时间的处理是一个常见问题。为了简化这个过程,许多开发者会使用第三方工具包,如Hutool。Hutool是一个Java工具包,提供了许多实用的功能,其中之一就是日期处理。日期时间工具类是Hutool的核心包…

Ambari 中移除/重装 yarn 集群中的 NodeManager 节点

文章目录 背景分析解决分析:现有 NodeManager 情况移除:240 服务器上的 NodeManager重新安装:240 服务器上的安装 NodeManager疑问为什么直接添加就可以运行?参考背景 项目中有Spark应用,主要在 yarn 集群中部署。 现在发现 yarn 集群中的节点资源过剩,需要将部分节点移…