李宏毅NLP-6-seq2seqHMM

news2025/7/9 22:25:07

比较seq2seq和HMM

在这里插入图片描述

Hidden Markov Model(HMM)

在这里插入图片描述
隐马尔可夫模型(HMM)在语音识别中的应用,具体内容如下:

  • 整体流程

    • 左侧为语音信号(标记为 “speech”),其特征表示为 X X X
    • 中间蓝色模块 “Speech Recognition” 表示语音识别系统。
    • 右侧为目标文本(标记为 “text”),其序列表示为 Y Y Y
  • 公式推导

    • 语音识别的目标是找到使 P ( Y ∣ X ) P(Y|X) P(YX) 最大的文本序列 Y ∗ Y^* Y,即 Y ∗ = arg ⁡ max ⁡ Y P ( Y ∣ X ) Y^* = \arg\max_Y P(Y|X) Y=argmaxYP(YX),这一过程称为解码(Decode)。
    • 根据贝叶斯公式, P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) P(Y|X) = \frac{P(X|Y)P(Y)}{P(X)} P(YX)=P(X)P(XY)P(Y)。由于 P ( X ) P(X) P(X)对所有 Y Y Y 是常数,可简化为 Y ∗ = arg ⁡ max ⁡ Y P ( X ∣ Y ) P ( Y ) Y^* = \arg\max_Y P(X|Y)P(Y) Y=argmaxYP(XY)P(Y)
    • 其中, P ( X ∣ Y ) P(X|Y) P(XY)由声学模型(Acoustic Model)建模,采用 HMM(图中橙色标注);$P(Y) $由语言模型(Language Model)建模,反映文本序列的概率。

在这里插入图片描述
隐马尔可夫模型(HMM)在语音识别中对声学模型 P ( X ∣ Y ) P(X|Y) P(XY) 的建模思路,通过引入状态序列 S S S简化建模过程,具体内容如下:

  • 公式转换:将 P ( X ∣ Y ) P(X|Y) P(XY)(基于文本序列 Y Y Y 的声学概率)转换为 P ( X ∣ S ) P(X|S) P(XS)(基于状态序列 S S S 的声学概率),并说明一个文本序列 Y Y Y 对应一个状态序列 S S S

  • 语音分解示例

    • 音素(Phoneme):句子 “what do you think” 被分解为音素序列: hh w aa t \text{hh w aa t} hh w aa t d uw \text{d uw} d uw y uw \text{y uw} y uw th ih ng k \text{th ih ng k} th ih ng k
    • 三音素(Tri - phone):考虑音素的上下文关系,进一步形成三音素,如 t - d + uw \text{t - d + uw} t - d + uw d - uw + y \text{d - uw + y} d - uw + y uw - y + uw \text{uw - y + uw} uw - y + uw y - uw + th \text{y - uw + th} y - uw + th 等。
    • 状态(State):每个三音素再细分为不同的状态(如 t - d + uw1 \text{t - d + uw1} t - d + uw1 t - d + uw2 \text{t - d + uw2} t - d + uw2 d - uw + y1 \text{d - uw + y1} d - uw + y1 等),通过这些状态序列 S S S建模声学概率 P ( X ∣ S ) P(X|S) P(XS),更细致地描述语音特征与变化。

通过这种分层分解(文本 → 音素 → 三音素 → 状态),HMM 将复杂的语音信号 X X X与文本 Y Y Y的关系,转化为基于状态序列 S S S 的概率建模,从而有效解决语音识别中的声学建模问题。

在这里插入图片描述
在这里插入图片描述隐马尔可夫模型(HMM)中的两个关键概率:

  1. 转移概率(Transition Probability)

    • 定义为从一个状态转移到另一个状态的概率,图中以 a → b a \to b ab 为例,标记为 p ( b ∣ a ) p(b|a) p(ba),体现了状态间的动态转移关系。
  2. 发射概率(Emission Probability)

    • 表示某个状态生成特定观测值的概率。图中以状态 “ t - d + u w 1 t\text{-}d\text{+}uw1 t-d+uw1” 和 “ d - u w + y 3 d\text{-}uw\text{+}y3 d-uw+y3” 为例,右侧的蓝色竖条代表观测值,不同颜色的圈(如蓝色圈对应 “ t - d + u w 1 t\text{-}d\text{+}uw1 t-d+uw1”,红色圈对应 “ d - u w + y 3 d\text{-}uw\text{+}y3 d-uw+y3”)表示各状态下观测值的概率分布,标注 P ( x ∣ “ t - d + u w 1 ” ) P(x| “t\text{-}d\text{+}uw1”) P(x∣“t-d+uw1”) P ( x ∣ “ d - u w + y 3 ” ) P(x| “d\text{-}uw\text{+}y3”) P(x∣“d-uw+y3”),体现了每个状态生成观测值的概率特性。 假设每个声音都有一个固定的发音。

在这里插入图片描述隐马尔可夫模型(HMM)中发射概率(Emission Probability)的相关内容,针对状态过多的问题提出了解决方案:

  • 状态过多的挑战HMM 中状态数量可能极为庞大,直接计算每个状态的发射概率会导致参数过多、计算复杂。
  • 状态绑定(Tied - state):引入 “Tied - state” 概念,通过让不同状态共享相同的发射概率分布(图中显示不同指针指向 “Same Address”),减少参数数量,简化计算。例如,状态 “ d - u w + y 3 d\text{-}uw\text{+}y3 d-uw+y3” 和 “ t - d + u w 3 t\text{-}d\text{+}uw3 t-d+uw3” 共享同一发射概率分布。
  • 子空间高斯混合模型(Subspace GMM):Subspace GMM [Povey, et al., ICASSP’10]”,表明最终采用子空间 GMM 建模发射概率。高斯混合模型(GMM)通过混合多个高斯分布拟合观测数据分布,子空间 GMM 在此基础上利用子空间方法优化,进一步减少参数,提升模型效率与可管理性。

在这里插入图片描述
隐马尔可夫模型(HMM)中计算 P θ ( X ∣ S ) P_{\theta}(X|S) Pθ(XS)(给定状态序列 S S S 时观测序列 X X X的概率)的过程,核心是对所有有效对齐路径 h h h 求和,具体内容如下:

  • 公式与对齐
    • 公式 P θ ( X ∣ S ) = ∑ h ∈ a l i g n ( S ) P ( X ∣ h ) P_{\theta}(X|S) = \sum_{h \in align(S)} P(X|h) Pθ(XS)=halign(S)P(Xh) 表示通过对状态序列 S S S 的所有有效对齐路径 h h h 求和来计算 P θ ( X ∣ S ) P_{\theta}(X|S) Pθ(XS)。图中 h = a b c c b c h = abccbc h=abccbc h = a b b b b b h = abbbbb h=abbbbb被叉除,表明这些对齐路径不符合要求。
    • “alignment” 指状态与观测向量的对应关系,即 “which state generates which vector”(哪个状态生成哪个向量)。
  • 发射与转移概率
    • Emission (GMM):发射概率使用高斯混合模型(GMM)建模,如 P ( x 1 ∣ a ) P(x^1|a) P(x1a) 表示状态 a a a 生成观测 x 1 x^1 x1 的概率。
    • Transition:状态转移概率 p ( b ∣ a ) p(b|a) p(ba) 表示从状态 a a a 转移到状态 b b b的概率。
  • 示例计算
    • h 1 = a a b b c c h^1 = aabbcc h1=aabbcc:状态序列为 a → a → b → b → c → c a \to a \to b \to b \to c \to c aabbcc,计算 P ( X ∣ h 1 ) P(X|h^1) P(Xh1) 时,需依次乘以各状态的发射概率 P ( x i ∣ 对应状态 ) P(x^i| \text{对应状态}) P(xi对应状态) 和状态转移概率 P ( 下一状态 ∣ 当前状态 ) P(\text{下一状态} | \text{当前状态}) P(下一状态当前状态),如 P ( a ∣ a ) × P ( x 1 ∣ a ) × P ( b ∣ a ) × P ( x 2 ∣ a ) × ⋯ P(a|a) \times P(x^1|a) \times P(b|a) \times P(x^2|a) \times \cdots P(aa)×P(x1a)×P(ba)×P(x2a)×
    • h 2 = a b b b b b c h^2 = abbbbbc h2=abbbbbc:展示另一种对齐路径的概率计算方式,同样结合发射与转移概率。

DeepLearning方法

Tandem

在这里插入图片描述Tandem 方法,其核心是利用深度神经网络(DNN)为隐马尔可夫模型(HMM)生成新的声学特征,具体内容如下:

  • DNN 作为状态分类器
    • 输入特征 x i x^i xi被输入到 DNN 中。
    • DNN 的输出层大小等于 HMM 中的状态数(“Size of output layer = No. of states”),每个输出节点对应一个状态的后验概率(如 p ( a ∣ x i ) p(a|x^i) p(axi) p ( b ∣ x i ) p(b|x^i) p(bxi) p ( c ∣ x i ) p(c|x^i) p(cxi)等),因此 DNN 充当 “State classifier”(状态分类器)。
  • 生成新声学特征
    • DNN 输出的状态后验概率被作为 “New acoustic feature for HMM”(HMM 的新声学特征),用于改进 HMM 的声学建模。
  • 灵活的特征提取层
    • 除了输出层,DNN 的最后隐藏层或瓶颈层的输出也可作为声学特征,增加了方法的灵活性。

DNN-HMM Hybrid

在这里插入图片描述DNN - HMM Hybrid(深度神经网络 - 隐马尔可夫模型混合) 方法,核心是利用深度神经网络(DNN)改进隐马尔可夫模型(HMM)的发射概率 P ( x ∣ a ) P(x|a) P(xa),具体内容如下:

  • 传统 HMM 的发射概率:左侧用高斯混合模型(GMM)表示 P ( x ∣ a ) P(x|a) P(xa)(状态 a a a生成观测 x x x 的概率),通过多个高斯分布拟合数据。
  • DNN 的作用:右侧DNN 输入语音特征 x x x,输出状态后验概率 P ( a ∣ x ) P(a|x) P(ax)
  • 公式推导
    • 根据概率公式 P ( x ∣ a ) = P ( x , a ) P ( a ) = P ( a ∣ x ) P ( x ) P ( a ) P(x|a) = \frac{P(x, a)}{P(a)} = \frac{P(a|x)P(x)}{P(a)} P(xa)=P(a)P(x,a)=P(a)P(ax)P(x)。由于 P ( x ) P(x) P(x)在比较不同状态 a a a 时是常数,可忽略,因此 P ( x ∣ a ) P(x|a) P(xa) 可通过 P ( a ∣ x ) P ( a ) \frac{P(a|x)}{P(a)} P(a)P(ax) 近似,其中 P ( a ) P(a) P(a)从训练数据中统计得到。
    • 这种方法利用 DNN 直接预测 P ( a ∣ x ) P(a|x) P(ax),替代传统 GMM 对 P ( x ∣ a ) P(x|a) P(xa) 的建模,简化计算并提升声学建模能力。

在这里插入图片描述
训练状态分类器的前期准备流程,具体如下:

  1. 输入未对齐数据:最上方的橙色圆柱表示输入 “Utterance + Label (without alignment)”(未对齐的话语和标签),即仅有语音特征(声学特征)和文本标签,但语音与标签未精确对齐。
  2. 训练 HMM - GMM 模型:通过蓝色模块 “Train HMM - GMM model” 训练隐马尔可夫 - 高斯混合模型。该模型利用无对齐的语音和标签数据,学习状态转移概率和发射概率(如通过 EM 算法),进而对语音进行对齐。
  3. 输出对齐数据:下方橙色圆柱表示输出 “Utterance + Label (aligned)”(对齐后的话语和标签)。经过 HMM - GMM 模型处理后,每个声学特征都与具体状态(如 a , b , c a, b, c a,b,c)精确对齐(例如声学特征序列对应 a , a , a , b , b , c , c a, a, a, b, b, c, c a,a,a,b,b,c,c 的状态序列)。

该流程通过 HMM - GMM 模型将无对齐的语音和标签转化为对齐数据,为后续训练状态分类器(如 DNN)提供了带精确标注(状态标签)的训练数据,使分类器能根据声学特征准确预测对应状态。

在这里插入图片描述
在这里插入图片描述
训练状态分类器的迭代优化流程,具体如下:

  1. 初始对齐阶段

    • 最上方的 “Utterance + Label (without alignment)” 表示输入未对齐的语音话语和标签。
    • 通过 “Train HMM - GMM model” 模块训练隐马尔可夫 - 高斯混合模型(HMM - GMM),该模型对未对齐数据进行处理,输出 “Utterance + Label (aligned)”,即语音与标签精确对齐的数据。
  2. DNN 初步训练与重新对齐

    • 对齐后的数据输入到 DNN1 中,用于初步训练状态分类器。
    • 利用 DNN1 的输出对数据进行 “realignment”(重新对齐),得到更优化的对齐数据。
  3. DNN 迭代优化训练

    • 重新对齐后的数据输入到 DNN2 中,进一步训练状态分类器。这种迭代过程通过 HMM - GMM 与 DNN 的交互,逐步优化语音 - 标签对齐效果和状态分类器的性能,提升模型对声学特征与状态对应关系的学习能力。

该流程体现了利用传统 HMM - GMM 与深度神经网络(DNN)结合,通过迭代对齐和训练,优化状态分类器的过程,是语音识别中常见的模型训练策略。
在这里插入图片描述
通过上述方法达到人类水平!
在这里插入图片描述
微软用了49层神经网络

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2340504.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

百度暑期实习岗位超3000个,AI相关岗位占比87%,近屿智能携AIGC课程加速人才输出

今年3月,百度重磅发布3000暑期实习岗位,聚焦大模型、机器学习、自动驾驶等AI方向的岗位比例高达87%。此次实习岗位涉及技术研发、产品策划、专业服务、管理支持、政企解决方案等四大类别,覆盖超300个岗位细分方向。值得一提的是,百…

【技术派后端篇】基于 Redis 实现网站 PV/UV 数据统计

在网站的数据分析中,PV(Page View,页面浏览量)和 UV(Unique Visitor,独立访客数)是两个重要的指标,几乎每个网站都需要对其进行统计。市面上有很多成熟的统计产品,例如百…

JAVA:利用 Apache Tika 提取文件内容的技术指南

1、简述 Apache Tika 是一个强大的工具,用于从各种文件中提取内容和元数据。📄Tika 支持解析文档、📸图像、🎵音频、🎥视频文件以及其他多种格式,非常适合构建🔍搜索引擎、📂内容管理系统和📊数据分析工具。 样例代码:https://gitee.com/lhdxhl/springboot-…

【AI】SpringAI 第二弹:接入 DeepSeek 官方服务

一、接入 DeepSeek 官方服务 通过一个简单的案例演示接入 DeepSeek 实现简单的问答功能 1.添加依赖 <dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-starter-model-openai</artifactId> </dependency> 2…

XMLXXE 安全无回显方案OOB 盲注DTD 外部实体黑白盒挖掘

# 详细点&#xff1a; XML 被设计为传输和存储数据&#xff0c; XML 文档结构包括 XML 声明、 DTD 文档类型定义&#xff08;可 选&#xff09;、文档元素&#xff0c;其焦点是数据的内容&#xff0c;其把数据从 HTML 分离&#xff0c;是独立于软件和硬件的 信息传输…

SQL之DML(查询语句:select、where)

&#x1f3af; 本文专栏&#xff1a;MySQL深入浅出 &#x1f680; 作者主页&#xff1a;小度爱学习 select查询语句 在开发中&#xff0c;查询语句是使用最多&#xff0c;也是CRUD中&#xff0c;复杂度最高的sql语句。 查询的语法结构 select *|字段1 [, 字段2 ……] from 表…

Oracle--用户管理

前言&#xff1a;本博客仅作记录学习使用&#xff0c;部分图片出自网络&#xff0c;如有侵犯您的权益&#xff0c;请联系删除 用户管理在 Oracle 数据库中至关重要。一个服务器通常只运行一个 Oracle 实例&#xff0c;而一个 Oracle 用户代表一个用户群&#xff0c;他们通过该用…

git忽略已跟踪的文件/指定文件

在项目开发中&#xff0c;有时候我们并不需要git跟踪所有文件&#xff0c;而是需要忽略掉某些指定的文件或文件夹&#xff0c;怎么操作呢&#xff1f;我们分两种情况讨论&#xff1a; 1. 要忽略的文件之前并未被git跟踪 这种情况常用的方法是在项目的根目录下创建和编辑.gitig…

RAG(检索增强生成)、ReAct(推理与行动) 和 多模态AI 的详细解析,包括三者的定义、工作原理、应用场景及协同关系

以下是 RAG&#xff08;检索增强生成&#xff09;、ReAct&#xff08;推理与行动&#xff09; 和 多模态AI 的详细解析&#xff0c;包括三者的定义、工作原理、应用场景及协同关系&#xff1a; 一、RAG&#xff08;Retrieval-Augmented Generation&#xff09; 1. 核心原理 …

6.QT-常用控件-QWidget|windowTitle|windowIcon|qrc机制|windowOpacity|cursor(C++)

windowTitle API说明windowTitle()获取到控件的窗⼝标题.setWindowTitle(const QString& title)设置控件的窗⼝标题. 注意!上述设置操作针对不同的widget可能会有不同的⾏为. 如果是顶层widget(独⽴窗⼝),这个操作才会有效. 如果是⼦widget,这个操作⽆任何效果. 代码⽰例…

Excel/WPS表格中图片链接转换成对应的实际图片

Excel 超链图变助手&#xff08;点击下载可免费试用&#xff09; 是一款将链接转换成实际图片&#xff0c;批量下载表格中所有图片的转换工具&#xff0c;无需安装&#xff0c;双击打开即可使用。 表格中链接如下图所示&#xff1a; 操作方法&#xff1a; 1、双击以下图标&a…

PostgreSQL基础

一、PostgreSQL介绍 PostgreSQL是一个功能强大的 开源 的关系型数据库。底层基于C实现。 PostgreSQL的开源协议和Linux内核版本的开源协议是一样的。。BDS协议&#xff0c;这个协议基本和MIT开源协议一样&#xff0c;说人话&#xff0c;就是你可以对PostgreSQL进行一些封装&a…

win11修改文件后缀名

一、问题描述 win11系统中&#xff0c;直接添加.py后缀后仍然是txt文本文件 二、处理方式&#xff1a; 点击上方三个小点点击“选项”按钮 点击“查看”取消“隐藏已知文件类型的扩展名”选项点击“应用” 此时&#xff0c;“.txt”文件后缀显示出来了。将txt删去&#xff0c…

Navicat连接数据库密码忘了如何解析

1、首先打开Navicat导出密码 打开文件---》导出链接----》选择连接并勾选导出密码 2、用编辑器打开复制密码 把password后面的密码复制出来 3、打开php编辑器&#xff0c;我这边因为平时不用就在网上找了一个在线编辑器 地址: https://www.w3cschool.cn/tryrun/runcode?la…

OpenStack Yoga版安装笔记(22)Swift笔记20250418

一、官方文档 https://docs.openstack.org/swift/yoga/admin/objectstorage-components.html#https://docs.openstack.org/swift/yoga/admin/objectstorage-components.html# 二、对象存储简介&#xff08;Introduction to Object Storage&#xff09; OpenStack 对象存储&a…

18、TimeDiff论文笔记

TimeDiff **1. 背景与动机****2. 扩散模型基础****3. TimeDiff 模型****3.1 前向扩散过程****3.2 后向去噪过程** 4、TimeDiff&#xff08;架构&#xff09;原理训练推理其他关键点解释 DDPM&#xff08;相关数学&#xff09;1、正态分布2、条件概率1. **与多个条件相关**&…

Linux环境下使用ADB命令做嵌入式开发

介绍 adb一般是给Android开发用的&#xff0c;但是换个思路也能做嵌入式Linux开发 安装 以Ubuntu20.04为例 sudo apt install android-tools-adb android-tools-fastboot安装成功可以查看adb版本号 命令 查看adb设备 登录shell 上传文件到设备指定目录 拉取设备上的文件到…

深度学习方向急出成果,是先广泛调研还是边做实验边优化?

目录 有限资源下本科生快速发表深度学习顶会论文的实战策略 1.短周期内可出成果的研究路径 2.论文阅读与复现的优先顺序 3.无一对一指导时的调研与实验组织 4.成功案例&#xff1a;本科生顶会论文经验 5.快速上手的研究子方向推荐 大家好这里是AIWritePaper官方账号&…

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

编者按&#xff1a; A16Z在《AI Voice Agents: 2025 Update》中提到&#xff1a; 语音是 AI 应用公司最强大的突破之一。 它是人类沟通中最频繁&#xff08;也是信息密度最高的&#xff09;形式&#xff0c;AI 也让其首次变得“可编程”。 在13期Z沙龙&#xff0c;我们聚焦AI…

阿里云镜像加速仅支持阿里云产品了

最近在拉取docker镜像时一直报超时的错误&#xff1a; docker pull hello-world Using default tag: latest Error response from daemon: Get "https://registry-1.docker.io/v2/": net/http: request canceled while waiting for connection (Client.Timeout exce…