机器学习 01高斯混合模型(Gaussian Mixture Model:GMM)_基础知识与认识
公式应用高斯混合模型本质是用多个高斯分布叠加去拟合任意复杂的数据分布常用来做聚类、密度估计、数据生成、异常检测等第一步基本认识“高斯模型”从“一个高斯”开始什么是高斯分布高斯分布就是正态分布也就是我们常说的钟形曲线。想象一下你们班的身高分布大部分同学的身高都在平均值附近比如165cm特别矮和特别高的人都很少画成图就是中间高、两边低的钟形曲线——这就是高斯分布。一个高斯分布只能描述“一群”数据比如全班同学的身高。第二步为什么需要“多个高斯”现在想象一个更复杂的场景你们学校有男生和女生你想用身高数据来建模。男生的身高平均值是 170cm一个高斯分布女生的身高平均值是 160cm另一个高斯分布如果你只用一个高斯分布去拟合所有数据你会得到一条扁平的、不太准确的曲线。但如果你用两个高斯分布一个代表男生一个代表女生然后把它们混合起来就能完美描述整体分布。这就是高斯混合模型的本质用多个简单的高斯分布组合成一个复杂的分布。第三步混合模型概念与核心要素1.什么是混合模型K是什么意思这里出现一个新概念“混合模型”混合模型是一个可以用来表示在总体分布distribution中含有 K 个子分布的概率模型换句话说混合模型表示了观测数据在总体中的概率分布它是一个由 K 个子分布组成的混合分布。混合模型不要求观测数据提供关于子分布的信息来计算观测数据在总体分布中的概率。上述定义来源于(4 封私信 / 4 条消息) 高斯混合模型GMM - 知乎我认为这里的混合它描述的是一种数据生成方式——数据并非来自单一的一个“源头”而是来自多个不同的“源头”的叠加。例如假设我们需要在一个教室里测量所有人的身高。如果教室里只有大学生身高分布大致是一个钟形曲线单一高斯分布。但如果教室里既有小学生又有大学生还有篮球运动员那么总体的身高直方图看起来会有几个“驼峰”。这里的“混合”就是指总体的概率分布是由几个不同的子分布高斯分布按照一定比例组合而成的。你无法用一个简单的“平均值”来描述这个群体因为这是一个“混合群体”。这里这个K我理解为组成高斯分布的子集。第四步高斯混合模型是什么样子对应的参数意义是什么1.高斯模型的公式基于上述分析我们知道高斯混合模型可以认为是多个高斯模型“组合而成”公式如下2.混合模型的三个要素与特征具体的参数表示什么意思假设我们有 2 个高斯分布K21每个高斯有自己的“位置”和“形状”均值 (μ)这个高斯分布的中心在哪里比如男生中心在 170cm协方差 (Σ)这个分布的“胖瘦”和“形状”比如男生的身高变化范围是多大2 每个高斯有“权重” (π)代表这个高斯分布有多“重要”比如学校有 60% 是男生π₁0.640% 是女生π₂0.4所有权重加起来等于 13每个数据点有“归属概率”GMM 不直接说“这个人是男生”它说“这个人有 80% 的概率是男生20% 的概率是女生”这就是软聚类——不是非黑即白而是概率化的判断。第五步用“学生分组”的类比来理解 EM 算法如何计算高斯混合模型的参数呢对于每个观测数据点来说事先并不知道它是属于哪个子分布。所以借助EM算法Expectation-Maximization Algorithm期望最大化算法。EM 算法:机器学习 01高斯混合模型(Gaussian Mixture ModelGMM)_EM算法-CSDN博客假设你是老师看到一个班级的学生数据点但不知道谁是男生谁是女生隐藏信息。你想估计男生的平均身高女生的平均身高男女生各占多少比例声明上述内容借助网络资料与ai整理仅供个人学习并记录欢迎讨论敬请批评指正
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2472155.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!