下篇：那个听声辨位的侦探后来破了大案——AI中隐马尔可夫模型的类型与作用，以及它为什么还在被使用

news2026/3/31 21:43:19

我们说了隐马尔可夫模型是一个“只能听声、不能见人”的侦探靠着一串声音推理出隔壁房间在发生什么。现在的问题是它到底有哪些具体的“形态”不同类型的隐马尔可夫模型分别擅长什么这个“老古董”在今天还能干什么先弄清楚它内部长什么样。在说类型之前有必要把隐马尔可夫模型的“五脏六腑”先交代清楚。一个完整的隐马尔可夫模型由五样东西定义状态集合有多少种隐藏状态比如两枚硬币就是两种状态正常币、作弊币词性标注里就是名词、动词、形容词等。观测集合能观察到多少种结果比如“叮”和“当”就是两种观测。初始概率最开始的时候隐藏状态是哪一个的概率比如一开始用正常币的概率是0.8作弊币是0.2。状态转移概率从当前状态跳到下一个状态的概率。比如正常币→正常币的概率是0.9正常币→作弊币的概率是0.1。观测概率在某个状态下产生某个观测值的概率。比如在用正常币的时候“叮”的概率是0.5“当”也是0.5用作弊币的时候“叮”的概率是0.9“当”是0.1。有了这五样东西这个模型就完整了。剩下的工作就是根据观测序列去推理隐藏状态。三大类型不同的“玩法”对应不同的需求隐马尔可夫模型的“类型”可以从不同角度来分。最实用的分法是根据观测值的特点来分。类型一离散观测隐马尔可夫模型这是最经典的形态也是我们刚才一直在用的——观测值是离散的、有限的。比如“叮/当”、比如“红/黄/绿”、比如“高/中/低”。适合场景词性标注观测值是词语隐藏状态是名词/动词/形容词、手势识别观测值是传感器读数离散化后的结果。优点简单、计算快、效果稳定。缺点现实世界很多观测是连续的硬要离散化会损失信息。类型二连续观测隐马尔可夫模型观测值不是“叮”或“当”这种离散符号而是连续的数值比如音量的大小、温度的高低、股票的价格。这种情况下你没法列一个“观测概率表”因为观测值有无限多种可能。解决方法是假设在某个隐藏状态下观测值服从某个概率分布——最常见的是高斯分布也就是正态分布。比如在用“作弊币”的状态下观测到的音量分布是一个均值为0.8、方差为0.1的正态分布。适合场景语音识别声学特征是连续的、心电图分析心率信号是连续的、金融时间序列分析。优点能直接处理原始信号不需要人为离散化。缺点需要假设观测值服从某种分布如果假设错了效果会打折扣。类型三输入-输出隐马尔可夫模型也叫“条件随机场”的近亲这个类型更高级一点。前面的两种类型里观测值是“被动产生”的——隐藏状态决定了观测值的概率分布但观测值本身不受外部因素影响。但在很多场景里观测值不仅跟隐藏状态有关还跟一些“输入特征”有关。比如在语音识别里你不仅要知道“当前是哪个音素”这个隐藏状态还要知道“说话人是谁”“语速快慢”这些额外信息。输入-输出隐马尔可夫模型允许你把外部特征加进来让观测概率不仅依赖于隐藏状态还依赖于你提供的额外信息。适合场景更复杂的时序建模任务比如带说话人信息的语音识别、带上下文信息的命名实体识别。优点更灵活、能利用更多信息。缺点模型更复杂需要的数据量更大训练也更慢。除了按观测值类型分还可以按“状态转移结构”分各态历经模型任何状态都能转移到任何其他状态。这是最通用的。左右模型状态只能从左往右转移不能回头。比如在语音识别里音素的顺序是固定的不会“发完‘a’又倒回去发‘b’”。这种结构参数更少更稳定。三大核心问题隐马尔可夫模型到底能干什么隐马尔可夫模型之所以强大是因为它能回答三类问题。这三类问题覆盖了大部分时序数据分析的需求。问题一评估——这段观测序列有多“像”这个模型你有多个隐马尔可夫模型比如一个是“正常心脏”的模型一个是“有心律失常”的模型。现在拿到一段新的心电图信号你想知道这段信号更可能是“正常心脏”产生的还是“有心律失常”的心脏产生的评估问题要解决的就是这个——给定一个模型和一段观测序列计算这段观测序列在这个模型下出现的概率。哪个模型的概率高就归为哪一类。应用场景语音识别里你有“你好”的模型、“再见”的模型哪个模型给一段声音的概率最高就识别成哪个词。异常检测里用正常数据训练一个模型新来的数据如果概率太低就是异常。问题二解码——隐藏状态到底是怎么走的这是隐马尔可夫模型最经典的应用。你看到了一整串观测值你想知道背后那串隐藏状态最可能是什么比如你做词性标注你看到“我/爱/北京”这三个词你想知道每个词的词性是什么。解码问题就是要在所有可能的词性组合里找出概率最高的那一条路径——“我/代词爱/动词北京/名词”。解码用的算法叫维特比算法是一个动态规划算法。它不枚举所有可能的路径那样会爆炸而是步步为营每一步只保留到达每个状态的最佳路径最后倒推回来。应用场景词性标注、命名实体识别、手势识别、基因序列中的功能区识别。问题三学习——没有模型怎么办自己从数据里学前面的两种问题都假设你已经有了一个隐马尔可夫模型状态转移概率、观测概率都已知。但现实是你往往没有现成的模型——你只有一堆观测序列连隐藏状态是什么都不知道。学习问题要解决的就是从一堆观测序列里自动学出状态转移概率和观测概率。这个没有解析解需要用迭代算法。最常用的是鲍姆-韦尔奇算法它是期望最大化算法的一个特例。大致思路是先随便猜一组参数然后根据这组参数去“猜”每个时刻的隐藏状态是什么再根据猜出来的隐藏状态重新估计参数反复迭代直到收敛。应用场景当你只有原始数据、没有标注的时候用隐马尔可夫模型从数据里“挖”出隐藏的结构。说了这么多它到底有什么用隐马尔可夫模型的应用比你想象的要广泛得多。它不是一个“过气”的模型而是在很多领域里依然在默默工作。作用一语音识别——最早的杀手级应用20世纪70年代开始隐马尔可夫模型就成了语音识别的主流方法统治了这个领域将近三十年。直到2010年代深度学习崛起之前几乎所有商业语音识别系统背后都是隐马尔可夫模型。它的做法是把每个音素用一个隐马尔可夫模型来表示音素之间的连接构成词词之间的连接构成句子。你说话的时候麦克风录下声音提取声学特征然后用维特比算法找出最可能的那条路径——对应的就是你说的话。即使到今天很多现代语音识别系统里依然有隐马尔可夫模型的影子——它经常和深度学习结合起来深度学习负责提取特征隐马尔可夫模型负责序列解码。作用二自然语言处理中的词性标注和命名实体识别“小明在北京上学”——这句话里的每个词是什么词性这个问题在自然语言处理里叫“词性标注”。隐马尔可夫模型处理这个任务很自然隐藏状态是词性名词、动词、形容词等观测值是具体的词语。状态转移概率告诉你“动词后面跟名词的概率有多大”观测概率告诉你“名词这个词出现的时候是地名的概率有多大”。然后用维特比算法跑一遍就能给整句话标上词性。命名实体识别比如从一句话里找出人名、地名、组织名也是类似的做法。作用三生物信息学中的基因预测DNA序列是A、T、C、G四个碱基排成的长串。生物学家想知道这段序列里哪些部分是编码蛋白质的基因哪些部分不是这是一个典型的“隐藏状态”推断问题——隐藏状态是“编码区/非编码区”观测值是碱基序列。隐马尔可夫模型可以用来识别基因、预测启动子区域、分析蛋白质结构。在这个领域它依然是工具箱里的常备工具。作用四手势识别和动作识别你戴着一个智能手表它能读到加速度计和陀螺仪的数据。你想知道用户是在走路、跑步、还是骑车这就是一个典型的时序分类问题。你可以为每种活动训练一个隐马尔可夫模型然后用“评估”问题来判断当前这段传感器数据最符合哪种活动。更复杂的场景里你想识别更精细的手势——比如“画一个圈”和“画一个三角”在传感器数据上的区别。隐马尔可夫模型能捕捉到这些动作的时序结构比单纯用每一帧的数据来分类要准得多。作用五金融领域的市场状态识别股市有“牛市”和“熊市”但这两个状态是看不见的。你只能看到每天的价格涨跌。你猜怎么着这就是一个标准的隐马尔可夫模型问题。把“牛市”“熊市”“震荡市”作为隐藏状态把每天的收益率作为观测值。用历史数据训练一个模型你就能推断出“当前市场最可能处于什么状态”甚至可以预测状态切换的概率。很多量化交易策略里隐马尔可夫模型被用来做“市场状态识别”——先判断现在是牛市还是熊市再选择对应的交易策略。尾声那个隔墙听声的侦探后来怎么样了回到上篇开头的那个比喻。那个只能听声不能见人的侦探后来破了不少大案。他靠着一串串“叮叮当当”的声音推断出隔壁房间里有人在切换硬币靠着一段段模模糊糊的语音还原出别人说的话靠着一行行基因代码找出了DNA里的秘密。他从来没见过那些“隐藏状态”长什么样但他知道——只要你能看到它们产生的痕迹你就能把它们推理出来。隐马尔可夫模型在AI的世界里已经活了半个多世纪。它没有神经网络那么“潮”没有深度学习那么“暴力”但它有一种老派工程师的踏实结构清晰、每一步都算得清楚、每一条路径都有据可查。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2469787.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！