数学建模期末速成聚类分析与判别分析

news2025/6/8 15:48:20

聚类分析是在不知道有多少类别的前提下，建立某种规则对样本或变量进行分类。判别分析是已知类别，在已知训练样本的前提下，利用训练样本得到判别函数，然后对未知类别的测试样本判别其类别。

聚类分析

根据样本自身的属性，用数学方法按照某些相似性或差异性指标，定量地确定样本之间的亲疏关系，并按这种亲疏关系程度对样本进行分类。常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。对样本进行分类称为Q型聚类分析，对指标进行分类称为R型聚类分析。

数据变换

由于样本数据矩阵由多个指标组成，不同指标一般有不同的量纲，为消除量纲的影响，通常需要进行数据变换处理。常用的数据变换方法有：

中心化处理：先求出每个变量的样本平均值，再从原始数据中减去该变量的均值
$b_{ij}=a_{ij}-\mu_{j}\:, \quad i=1\:,\cdots,n\:;j=1\:,\cdots,p\:,\\\text{式中}:\mu_j=\frac{\sum_{i=1}^na_{ij}}n$
规格化处理：每一个变量的原始数据减去该变量中的最小值，再除以极差
$b_{ij}=\frac{a_{ij}-\min_{1\leq i\leq n}\left(\:a_{ij}\:\right)}{\max_{1\leq i\leq n}\left(\:a_{ij}\:\right)-\min_{1\leq i\leq n}\left(\:a_{ij}\right)},\quad i=1\:,\cdots,n\:;j=1\:,\cdots,p.$
标准化变换：先对每个变量进行中心化变换，然后用该变量的标准差进行标准化
$b_{ij}=\frac{a_{ij}-\mu_{j}}{s_{j}},\quad i=1\:,\cdots,n\:;j=1\:,\cdots,p\:,\\\text{式中}:\mu_{j}=\frac{\sum_{i=1}^{n}a_{ij}}{n};s_{j}=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}\left(a_{ij}-\mu_{j}\right)^{2}}$

样品(或指标)间亲疏程度的测度计算

研究样品或变量的亲疏程度或相似程度的数量指标通常有两种：

相似系数，性质越接近的变量或样品，其取值越接近于1或-1，而彼此无关的变量或样品的相似系数则越接近于0，相似的归为一类，不相似的归为不同类。
距离，它将每个样品看成p维空间的一个点，n个样品组成p维空间的n个点。用各点之间的距离来衡量各样品之间的相似程度（或靠近程度）。距离近的点归为一类，距离远的点属于不同的类。

对于变量之间的聚类(R型)常用相似系数来测度变量之间的亲疏程度，而对于样品之间的聚类(Q型)，则常用距离来测度样品之间的亲疏程度。

相似系数的计算

夹角余弦
$\cos\theta_{ij}=\frac{\sum_{k=1}^pb_{ik}b_{jk}}{\sqrt{\sum_{k=1}^pb_{ik}^2}\cdot\sqrt{\sum_{k=1}^pb_{jk}^2}},\quad i,j=1,2,\cdots,n.$
皮尔逊相关系数
$r_{ij}=\frac{\sum_{k=1}^p(\:b_{ik}\:-\:\overline{\mu}_i\:)\:(\:b_{jk}\:-\:\overline{\mu}_j\:)}{\sqrt{\sum_{k=1}^p\:(\:b_{ik}\:-\:\overline{\mu}_i\:)^2}\:\cdot\:\sqrt{\sum_{k=1}^p\:(\:b_{jk}\:-\overline{\mu}_j\:)^2}},\quad i,j=1\:,2\:,\cdots,n\:,\text{式中}:\overline{\mu}_i=\frac{\sum_{k=1}^pb_{ik}}{p}$

距离计算

闵式距离
$. . .$
马氏距离
$d\left(\:\omega_{i}\:,\omega_{j}\:\right)=\sqrt{\left(\:\omega_{i}-\omega_{j}\:\right)\sum^{-1}\left(\:\omega_{i}\:-\omega_{j}\:\right)^{\mathrm{T}}}$
$\begin{aligned}&\text{式中:}\omega_i\text{ 表示矩阵 }B\text{ 的第 }i\text{ 行};\boldsymbol{\Sigma}\text{ 表示观测变量之间的协方差阵},\boldsymbol{\Sigma}=\left(\sigma_{ij}\right)_{p\times p},\text{其中}\\&\sigma_{ij}=\frac1{n-1}\sum_{k=1}^n\left(b_{ki}-\mu_i\right)\left(b_{ij}-\mu_j\right),\quad i,j=1,2,\cdots,p\:,\\&\text{式中}:\mu_j=\frac1n\sum_{k=1}^nb_{kj}\end{aligned}$

基于类间距离的系统聚类

系统聚类法是聚类分析方法中使用最多的方法。其基本思想是：距离相近的样品(或变量)先聚为一类，距离远的后聚成类，此过程一直进行下去，每个样品总能聚到合适的类中。它包括如下步骤
(1)将每个样品（或变量）独自聚成一类，构造n个类。
(2)根据所确定的样品（或变量）距离公式，计算个样品（或变量）两两间的距离，构造距离矩阵，记为 $D_{(0)}$
(3)把距离最近的两类归为一新类，其他样品（或变量）仍各自聚为一类，共聚成n-1类。
(4)计算新类与当前各类的距离，将距离最近的两个类进一步聚成一类，共聚成-2类。以上步骤一直进行下去，最后将所有的样品（或变量）聚成一类。
(5)画聚类谱系图。
(6)决定类的个数及各类包含的样品数，并对类做出解释