数学建模期末速成 聚类分析与判别分析

news2025/6/8 15:48:20

聚类分析是在不知道有多少类别的前提下,建立某种规则对样本或变量进行分类。判别分析是已知类别,在已知训练样本的前提下,利用训练样本得到判别函数,然后对未知类别的测试样本判别其类别。

聚类分析

根据样本自身的属性,用数学方法按照某些相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行分类。常见的聚类分析方法有系统聚类法动态聚类法模糊聚类法等。对样本进行分类称为Q型聚类分析,对指标进行分类称为R型聚类分析。

数据变换

由于样本数据矩阵由多个指标组成,不同指标一般有不同的量纲,为消除量纲的影响,通常需要进行数据变换处理。常用的数据变换方法有:

  • 中心化处理:先求出每个变量的样本平均值,再从原始数据中减去该变量的均值
    b i j = a i j − μ j   , i = 1   , ⋯   , n   ; j = 1   , ⋯   , p   , 式中 : μ j = ∑ i = 1 n a i j n b_{ij}=a_{ij}-\mu_{j}\:, \quad i=1\:,\cdots,n\:;j=1\:,\cdots,p\:,\\\text{式中}:\mu_j=\frac{\sum_{i=1}^na_{ij}}n bij=aijμj,i=1,,n;j=1,,p,式中:μj=ni=1naij
  • 规格化处理:每一个变量的原始数据减去该变量中的最小值,再除以极差
    b i j = a i j − min ⁡ 1 ≤ i ≤ n (   a i j   ) max ⁡ 1 ≤ i ≤ n (   a i j   ) − min ⁡ 1 ≤ i ≤ n (   a i j ) , i = 1   , ⋯   , n   ; j = 1   , ⋯   , p . b_{ij}=\frac{a_{ij}-\min_{1\leq i\leq n}\left(\:a_{ij}\:\right)}{\max_{1\leq i\leq n}\left(\:a_{ij}\:\right)-\min_{1\leq i\leq n}\left(\:a_{ij}\right)},\quad i=1\:,\cdots,n\:;j=1\:,\cdots,p. bij=max1in(aij)min1in(aij)aijmin1in(aij),i=1,,n;j=1,,p.
  • 标准化变换:先对每个变量进行中心化变换,然后用该变量的标准差进行标准化
    b i j = a i j − μ j s j , i = 1   , ⋯   , n   ; j = 1   , ⋯   , p   , 式中 : μ j = ∑ i = 1 n a i j n ; s j = 1 n − 1 ∑ i = 1 n ( a i j − μ j ) 2 b_{ij}=\frac{a_{ij}-\mu_{j}}{s_{j}},\quad i=1\:,\cdots,n\:;j=1\:,\cdots,p\:,\\\text{式中}:\mu_{j}=\frac{\sum_{i=1}^{n}a_{ij}}{n};s_{j}=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}\left(a_{ij}-\mu_{j}\right)^{2}} bij=sjaijμj,i=1,,n;j=1,,p,式中:μj=ni=1naij;sj=n11i=1n(aijμj)2

样品(或指标)间亲疏程度的测度计算

研究样品或变量的亲疏程度或相似程度的数量指标通常有两种:

  • 相似系数,性质越接近的变量或样品,其取值越接近于1或-1,而彼此无关的变量或样品的相似系数则越接近于0,相似的归为一类,不相似的归为不同类。
  • 距离,它将每个样品看成p维空间的一个点,n个样品组成p维空间的n个点。用各点之间的距离来衡量各样品之间的相似程度(或靠近程度)。距离近的点归为一类,距离远的点属于不同的类。

对于变量之间的聚类(R型)常用相似系数来测度变量之间的亲疏程度,而对于样品之间的聚类(Q型),则常用距离来测度样品之间的亲疏程度。

相似系数的计算
  • 夹角余弦
    cos ⁡ θ i j = ∑ k = 1 p b i k b j k ∑ k = 1 p b i k 2 ⋅ ∑ k = 1 p b j k 2 , i , j = 1 , 2 , ⋯   , n . \cos\theta_{ij}=\frac{\sum_{k=1}^pb_{ik}b_{jk}}{\sqrt{\sum_{k=1}^pb_{ik}^2}\cdot\sqrt{\sum_{k=1}^pb_{jk}^2}},\quad i,j=1,2,\cdots,n. cosθij=k=1pbik2 k=1pbjk2 k=1pbikbjk,i,j=1,2,,n.
  • 皮尔逊相关系数
    r i j = ∑ k = 1 p (   b i k   −   μ ‾ i   )   (   b j k   −   μ ‾ j   ) ∑ k = 1 p   (   b i k   −   μ ‾ i   ) 2   ⋅   ∑ k = 1 p   (   b j k   − μ ‾ j   ) 2 , i , j = 1   , 2   , ⋯   , n   , 式中 : μ ‾ i = ∑ k = 1 p b i k p r_{ij}=\frac{\sum_{k=1}^p(\:b_{ik}\:-\:\overline{\mu}_i\:)\:(\:b_{jk}\:-\:\overline{\mu}_j\:)}{\sqrt{\sum_{k=1}^p\:(\:b_{ik}\:-\:\overline{\mu}_i\:)^2}\:\cdot\:\sqrt{\sum_{k=1}^p\:(\:b_{jk}\:-\overline{\mu}_j\:)^2}},\quad i,j=1\:,2\:,\cdots,n\:,\text{式中}:\overline{\mu}_i=\frac{\sum_{k=1}^pb_{ik}}{p} rij=k=1p(bikμi)2 k=1p(bjkμj)2 k=1p(bikμi)(bjkμj),i,j=1,2,,n,式中:μi=pk=1pbik
距离计算
  • 闵式距离
    . . . ... ...
  • 马氏距离
    d (   ω i   , ω j   ) = (   ω i − ω j   ) ∑ − 1 (   ω i   − ω j   ) T d\left(\:\omega_{i}\:,\omega_{j}\:\right)=\sqrt{\left(\:\omega_{i}-\omega_{j}\:\right)\sum^{-1}\left(\:\omega_{i}\:-\omega_{j}\:\right)^{\mathrm{T}}} d(ωi,ωj)=(ωiωj)1(ωiωj)T
    式中: ω i  表示矩阵  B  的第  i  行 ; Σ  表示观测变量之间的协方差阵 , Σ = ( σ i j ) p × p , 其中 σ i j = 1 n − 1 ∑ k = 1 n ( b k i − μ i ) ( b i j − μ j ) , i , j = 1 , 2 , ⋯   , p   , 式中 : μ j = 1 n ∑ k = 1 n b k j \begin{aligned}&\text{式中:}\omega_i\text{ 表示矩阵 }B\text{ 的第 }i\text{ 行};\boldsymbol{\Sigma}\text{ 表示观测变量之间的协方差阵},\boldsymbol{\Sigma}=\left(\sigma_{ij}\right)_{p\times p},\text{其中}\\&\sigma_{ij}=\frac1{n-1}\sum_{k=1}^n\left(b_{ki}-\mu_i\right)\left(b_{ij}-\mu_j\right),\quad i,j=1,2,\cdots,p\:,\\&\text{式中}:\mu_j=\frac1n\sum_{k=1}^nb_{kj}\end{aligned} 式中:ωi 表示矩阵 B 的第 i ;Σ 表示观测变量之间的协方差阵,Σ=(σij)p×p,其中σij=n11k=1n(bkiμi)(bijμj),i,j=1,2,,p,式中:μj=n1k=1nbkj

基于类间距离的系统聚类

系统聚类法是聚类分析方法中使用最多的方法。其基本思想是:距离相近的样品(或变量)先聚为一类,距离远的后聚成类,此过程一直进行下去,每个样品总能聚到合适的类中。它包括如下步骤
(1)将每个样品(或变量)独自聚成一类,构造n个类。
(2)根据所确定的样品(或变量)距离公式,计算个样品(或变量)两两间的距离,构造距离矩阵,记为 D ( 0 ) D_{(0)} D(0)
(3)把距离最近的两类归为一新类,其他样品(或变量)仍各自聚为一类,共聚成n-1类。
(4)计算新类与当前各类的距离,将距离最近的两个类进一步聚成一类,共聚成-2类。以上步骤一直进行下去,最后将所有的样品(或变量)聚成一类。
(5)画聚类谱系图。
(6)决定类的个数及各类包含的样品数,并对类做出解释

类与类之间的距离

最短距离法
最长距离法
其他系统聚类方法

  • 重心法
  • 类平均法
  • 离差平方和法

动态聚类法

R型聚类法

判别分析

距离判别法(最近邻方法)

距离判别法的基本思想:根据已知分类的数据,分别计算各类的重心即分组(类)的均值,对任意给定的一个样品,若它与第 i 类的重心距离最近,就认为它来自第 i 类。因此,距离判别法又称为最近邻方法。

Fisher判别

Fisher判别的基本思想是投影,即将表面上不易分类的数据通过投影到某个方向上,使得投影类与类之间得以分离的一种判别方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2404279.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【工具教程】PDF电子发票提取明细导出Excel表格,OFD电子发票行程单提取保存表格,具体操作流程

在企业财务管理领域,电子发票提取明细导出表格是不可或缺的工具。 月末财务结算时,财务人员需处理成百上千张电子发票,将发票明细导出为表格后,通过表格强大的数据处理功能,可自动分类汇总不同项目的支出金额&#xff…

基于STM32的DHT11温湿度远程监测LCD1602显示Proteus仿真+程序+设计报告+讲解视频

DHT11温湿度远程监测proteus仿真 1. 主要功能2.仿真3. 程序4. 设计报告5. 资料清单&下载链接 基于STM32的DHT11温湿度远程监测LCD1602显示Proteus仿真设计(仿真程序设计报告讲解视频) 仿真图proteus 8.9 程序编译器:keil 5 编程语言:C…

分类预测 | Matlab实现CNN-BiLSTM-Attention高光谱数据分类预测

分类预测 | Matlab实现CNN-BiLSTM-Attention高光谱数据分类预测 目录 分类预测 | Matlab实现CNN-BiLSTM-Attention高光谱数据分类预测分类效果功能概述程序设计参考资料 分类效果 功能概述 该MATLAB代码实现了一个结合CNN、BiLSTM和注意力机制的高光谱数据分类预测模型&#x…

微软推出SQL Server 2025技术预览版,深化人工智能应用集成

在Build 2025 大会上,微软向开发者社区开放了SQL Server 2025的测试版本。该版本的技术改进主要涵盖人工智能功能集成、系统性能优化与开发工具链升级三个维度,展示了数据库管理系统在智能化演进方向上的重要进展。 智能数据处理功能更新 新版本的技术亮…

RocketMQ入门5.3.2版本(基于java、SpringBoot操作)

一、RocketMQ概述 RocketMQ是一款由阿里巴巴于2012年开源的分布式消息中间件,旨在提供高吞吐量、高可靠性的消息传递服务。主要特点有: 灵活的可扩展性 海量消息堆积能力 支持顺序消息 支持多种消息过滤方式 支持事务消息 支持回溯消费 支持延时消…

使用osqp求解简单二次规划问题

文章目录 一、问题描述二、数学推导1. 目标函数处理2. 约束条件处理 三、代码编写 一、问题描述 已知: m i n ( x 1 − 1 ) 2 ( x 2 − 2 ) 2 s . t . 0 ⩽ x 1 ⩽ 1.5 , 1 ⩽ x 2 ⩽ 2.5 min(x_1-1)^2(x_2-2)^2 \qquad s.t. \ \ 0 \leqslant x_1 \leqslant 1.5,…

【C语言】通用统计数据结构及其更新函数(最值、变化量、总和、平均数、方差等)

【C语言】通用统计数据结构及其更新函数(最值、变化量、总和、平均数、方差等) 更新以gitee为准: gitee 文章目录 通用统计数据结构更新函数附录:压缩字符串、大小端格式转换压缩字符串浮点数压缩Packed-ASCII字符串 大小端转换什…

Spring AI(10)——STUDIO传输的MCP服务端

Spring AI MCP(模型上下文协议)服务器Starters提供了在 Spring Boot 应用程序中设置 MCP 服务器的自动配置。它支持将 MCP 服务器功能与 Spring Boot 的自动配置系统无缝集成。 本文主要演示支持STDIO传输的MCP服务器 仅支持STDIO传输的MCP服务器 导入j…

Sklearn 机器学习 缺失值处理 填充数据列的缺失值

💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖 本博客的精华专栏: 【自动化测试】 【测试经验】 【人工智能】 【Python】 💡使用 Scikit-learn 处理数据缺失值的完整指南 在机器学习项目中,数据缺失是不可避…

猜字符位置游戏-position gasses

import java.util.*;public class Main {/*字符猜位置游戏;每次提交只能被告知答对几个位置;根据提示答对的位置数推测出每个字符对应的正确位置;*/public static void main(String[] args) {char startChar A;int gameLength 8;List<String> ballList new ArrayList&…

宝塔安装配置FRP

FRP&#xff08;Fast Reverse Proxy&#xff09;作为一款高性能的反向代理应用&#xff0c;能够帮助我们轻松实现内网穿透&#xff0c;将内网服务暴露到公网&#xff0c;满足远程访问、开发调试等多种需求。宝塔面板以其简洁易用的界面和强大的功能&#xff0c;成为众多站长和开…

元器件基础学习笔记——结型场效应晶体管 (JFET)

场效应晶体管&#xff08;Field Effect Transistor&#xff0c;FET&#xff09;简称场效应管&#xff0c;是一种三端子半导体器件&#xff0c;它根据施加到其其中一个端子的电场来控制电流的流动。与双极结型晶体管 &#xff08;BJT&#xff09; 不同&#xff0c;场效应晶体管 …

tableau 实战工作场景常用函数与LOD表达式的应用详解

这是tableau实战工作场景图表制作第七期--常用函数与LOD表达式的应用 数据资源已经与这篇博客捆绑&#xff0c;有需要者可以下载通过网盘分享的文件&#xff1a;3.2-8月成交数据.xlsx等3个文件 链接: https://pan.baidu.com/s/17WtUoZTqzoNo5kTFjua4hw?pwd0623 提取码: 06…

《PyTorch:开启深度学习新世界的魔法之门》

一、遇见 PyTorch:深度学习框架新星登场 在当今的技术领域中,深度学习已然成为推动人工智能发展的核心动力,而深度学习框架则是这场技术革命中的关键工具。在众多深度学习框架里,PyTorch 以其独特的魅力和强大的功能,迅速崛起并占据了重要的地位,吸引着无数开发者和研究者…

分布式光纤传感(DAS)技术应用解析:从原理到落地场景

近年来&#xff0c;分布式光纤传感&#xff08;Distributed Acoustic Sensing&#xff0c;DAS&#xff09;技术正悄然改变着众多传统行业的感知方式。它将普通的通信光缆转化为一个长距离、连续分布的“听觉传感器”&#xff0c;对振动、声音等信号实现高精度、高灵敏度的监测。…

Spring事务回滚在系统中的应用

以文章发布为例&#xff0c;介绍Spring事务回滚在系统中的应用 事务回滚的核心概念 事务回滚是数据库管理系统中的关键机制&#xff0c;它确保数据库操作要么全部成功&#xff0c;要么全部失败。在Spring框架中&#xff0c;我们可以通过Transactional注解轻松实现事务管理。 …

ASP.NET Core使用Quartz部署到IIS资源自动被回收解决方案

iis自动回收的原因 回收机制默认配置&#xff0c;间隔时间是1740分钟&#xff0c;意思是&#xff1a;默认情况下每1740分钟(29小时)回收一次&#xff0c;定期检查应用程序池中的工作进程&#xff0c;并终止那些已经存在很长时间或已经使用了太多资源的工作进程 进程模型默认配…

调用.net DLL让CANoe自动识别串口号

1.前言 CANoe9.0用CAPL控制数控电源_canoe读取程控电源电流值-CSDN博客 之前做CAPL通过串口控制数控电源&#xff0c;存在一个缺点&#xff1a;更换电脑需要改串口号 CSDN上有类似的博客&#xff0c;不过要收费&#xff0c;本文根据VID和PID来自动获取串口号&#xff0c;代码…

算法(蓝桥杯学习C/C++版)

up: 溶金落梧桐 溶金落梧桐的个人空间-溶金落梧桐个人主页-哔哩哔哩视频 蓝桥杯三十天冲刺系列 BV18eQkY3EtP 网站&#xff1a; OI Wiki OI Wiki - OI Wiki 注意 比赛时&#xff0c;devc勾选c11&#xff08;必看&#xff09; 必须勾选c11一共有两个方法&#xff0c;任用…

Docker镜像无法拉取问题解决办法

最近再学习RabbitMQ&#xff0c;需要从Docker镜像中拉取rabbitMQ&#xff0c;但是下拉失败 总的来说就是无法和docker镜像远程仓库建立连接 我又去尝试ping docker.io发现根本没有反应&#xff0c;还是无法连接找了许多办法还是没有办法解决&#xff0c;最后才发现是镜像问题&a…