机器学习----决策树

news2026/2/21 14:32:04

一、决策树简介

from sklearn.tree import DecisionTreeClassifier

from sklearn.tree import plot_tree

决策树是一种树形结构，树中每个内部节点表示一个特征上的判断，每个分支代表一个判断结果的输出，每个叶子节点代表一种分类结果。

决策树的建立过程（三要素）：

1.特征选择：选择较强分类能力的特征；

2.决策树的生成：根据选择的特征生成决策树；

3.决策树的剪枝：决策树也容易过拟合，采用剪枝的方法缓解过拟合。

二、信息熵

“信息熵”：是信息论中的一个核心概念，它本质上是对不确定性或信息量的度量。

信息熵越大，信息的不确定性越大，信息的纯度越低，分类的效果越差；

信息熵越小，信息的不确定性越小，信息的纯度越高，分类的效果越好。

$H\left ( x \right )=-\sum_{i=0}^{n}P\left ( x_{i} \right )log_{2}P\left ( x_{i} \right )$

其中 $P\left ( x_{i} \right )$ 表示数据中 $x_{i}$ 类别出现的概率， $H\left ( x \right )$ 表示数据的信息熵，单位是比特。

三、ID3决策树

1.特征选择

信息增益：g(D,A)=H(D)-H(D|A)，信息增益 = 熵 - 条件熵

条件熵：子集1占比*子集1的熵作为子集1的结果，然后对所有计算结果求和。

2.决策树的生成

①计算每个特征的信息增益

②使用信息增益最大的特征将数据集拆分为子集

③使用该特征（信息增益最大的特征）作为决策树的一个节点

④若该节点已成功分类（节点中只有一个类的样本）或该节点达到停止生长条件，则停止生长，否则使用剩余特征对子集重复上述（1，2，3）过程。

3.不足

基于信息增益计算的方式，会偏向于选择种类多的特征作为分裂依据。

四、C4.5决策树

1.特征选择

信息增益率：信息增益率=信息增益/特征熵。

特征熵（也称惩罚系数）： $-\sum_{i=0}^{n}$ （特征子集1的占比* $log_{_{2}}$ (特征子集1的占比)）

2.决策树的生成

类似ID3，只是调整为基于信息增益率进行特征选择,选择增益率大的特征作为分裂依据。

五、CART决策树

Cart模型是一种决策树模型，它即可以用于分类，也可以用于回归。

Cart回归树使用平方误差最小化策略，

Cart分类生成树采用的基尼指数最小化策略。

1.Cart分类树

特征选择：基尼值：

基尼系数：

决策树的生成：类似ID3，调整为基于基尼系数进行特征选择。

2.Cart回归树

特征选择：最小化回归树预测结果的平方误差。

决策树的生成：1.选择一个特征，将该特征的值进行排序，取相邻点计算均值作为待划分点
2.根据所有划分点，将数据集分成两部分：R1、R2
3.R1 和 R2 两部分的平方损失相加作为该切分点平方损失
4.取最小的平方损失的划分点，作为当前特征的划分点
5.以此计算其他特征的最优划分点、以及该划分点对应的损失值
6.在所有的特征的划分点中，选择出最小平方损失的划分点，作为当前树的分裂点