目录
一、集成学习
1、简介
2、集成学习的代表
3、XGBoost和随机森林的对比
相同点:
不同点:
二、Bagging之随机森林
1、简介
2、随机森林的核心思想
3、随机森林生成步骤
4、随机森林的优点
5、随机森林的缺点
三、随机森林的代码实现
1、API接口
核心参数
2、代码实现
一、集成学习
1、简介
集成学习是一种通过结合多个基学习器(Base Learners)来构建更强模型的机器学习方法。其核心思想是“三个臭皮匠,顶个诸葛亮”,即通过集成多个弱学习器的预测结果,可以获得比单一模型更好的泛化性能和鲁棒性。集成学习广泛应用于分类、回归和异常检测等任务。
 
 
2、集成学习的代表
- bagging方法:典型的是随机森林
- boosting方法:典型的是Xgboost
- stacking方法:堆叠模型
3、XGBoost和随机森林的对比
-  相同点:- 两者都是由多棵树组成,最终的结果都是由多棵树一起决定。
- 在使用CART树时,两者可以是分类树或者回归树。
 
-  不同点:- 组成随机森林的树可以并行生成,而XGBoost是串行生成。
- 随机森林的结果是多数表决表决的,而XGBoost则是多棵树累加之和。
- 随机森林对异常值不敏感,而XGBoost对异常值比较敏感。
- 随机森林是减少模型的方差,而XGBoost是减少模型的偏差。
- 随机森林不需要进行特征归一化,而XGBoost则需要进行特征归一化。
- XGBoost在训练之前,预先对数据进行了排序,然后保存为blockblock结构,后面的迭代中重复地使用这个结构,大大减小计算量。这个blockblock结构也使得并行成为了可能,在进行节点的分裂时,需要计算每个特征的增益,最终选增益最大的那个特征去做分裂,那么各个特征的增益计算就可以开多线程进行。
 
二、Bagging之随机森林
1、简介
随机森林是一种基于集成学习的机器学习算法,属于Bagging(Bootstrap Aggregating)方法的一种。它通过构建多个决策树并将它们的结果进行集成,从而提高模型的准确性和鲁棒性。随机森林广泛应用于分类和回归任务,具有较好的泛化能力和抗过拟合特性。
2、随机森林的核心思想
-  Bagging: -  随机森林通过对训练数据进行有放回的随机采样(Bootstrap Sampling),生成多个不同的子数据集。 
-  每个子数据集用于训练一个独立的决策树。 
 
-  
-  随机特征选择: -  在构建每棵决策树时,随机森林不仅对样本进行随机采样,还对特征进行随机选择。 
-  每次分裂节点时,只从随机选择的特征子集中选择最优特征,而不是从所有特征中选择。 
 
-  
-  集成学习: -  训练完成后,随机森林通过投票(分类任务)或平均(回归任务)的方式,将多棵决策树的结果进行集成,得到最终预测结果。 
 
-  
3、随机森林生成步骤
-  数据采样: -  从原始训练集中通过Bootstrap Sampling随机抽取n个样本(可能有重复),形成一个子数据集。 
-  重复此过程,生成Di个子数据集。 
 
-  
-  构建决策树: -  对每个子数据集,构建一棵决策树。 
-  在每次分裂节点时,从随机选择的特征子集中选择最优特征进行分裂。 
 
-  
-  集成预测: -  对于分类任务,采用多数投票法,将每棵树的预测结果进行投票,得票最多的类别为最终预测结果。 
-  对于回归任务,采用平均值法,将所有树的预测结果取平均作为最终预测值。 
 
-  

4、随机森林的优点
-  抗过拟合: -  通过Bagging和随机特征选择,随机森林能够有效降低模型的方差,减少过拟合的风险。 
 
-  
-  高准确性: -  集成多棵决策树的结果,通常比单棵决策树的预测效果更好。 
 
-  
-  鲁棒性强: -  对噪声数据和缺失值不敏感,能够处理高维数据。 
 
-  
-  可解释性: -  可以通过特征重要性评估,了解哪些特征对预测结果影响较大。 
 
-  
-  并行化: -  每棵树的构建是独立的,可以并行化处理,提高训练效率。 
 
-  
5、随机森林的缺点
-  训练时间较长: -  当树的数量较多时,训练时间会显著增加。 
 
-  
-  内存占用较大: -  需要存储多棵决策树,内存消耗较大。 
 
-  
-  不易解释性: -  随机森林模型还有许多不好解释的地方,有点算个黑盒模型。 
 
-  
三、随机森林的代码实现
1、API接口
RandomForestClassifier()核心参数
| 参数名 | 默认值 | 说明 | 
|---|---|---|
| n_estimators | 100 | 随机森林中树的数量。树越多,模型越稳定,但计算成本也越高。 | 
| criterion | 'gini' | 分裂节点的评价标准。可选值: - 'gini':基尼不纯度。- 'entropy':信息增益。 | 
| max_depth | None | 树的最大深度。如果为 None,则节点会一直扩展,直到所有叶子节点纯净或达到min_samples_split。 | 
| min_samples_split | 2 | 分裂内部节点所需的最小样本数。如果样本数少于该值,则不会继续分裂。 | 
| min_samples_leaf | 1 | 叶子节点所需的最小样本数。如果某次分裂导致叶子节点样本数少于该值,则不会进行分裂。 | 
| min_weight_fraction_leaf | 0.0 | 叶子节点所需的最小权重比例。 | 
| max_features | 'sqrt' | 每次分裂时考虑的最大特征数。可选值: - 'auto'或'sqrt':取特征总数的平方根。- 'log2':取特征总数的对数。- 整数:直接指定特征数。 - 浮点数:指定特征总数的百分比。 | 
| max_leaf_nodes | None | 树的最大叶子节点数。如果为 None,则不限制叶子节点数。 | 
| min_impurity_decrease | 0.0 | 如果分裂导致不纯度的减少大于该值,则进行分裂。 | 
| bootstrap | True | 是否使用 Bootstrap 采样。如果为 False,则使用整个数据集训练每棵树。 | 
| n_jobs | None | 并行运行的作业数。如果为 -1,则使用所有可用的 CPU 核心。 | 
| random_state | None | 随机种子,用于控制随机性。设置固定值可以使结果可重复。 | 
| warm_start | False | 如果为 True,则复用上一次调用的结果,继续训练更多的树。 | 
| ccp_alpha | 0.0 | 用于最小化成本复杂度剪枝的复杂度参数。值越大,剪枝越强。 | 
| max_samples | None | 如果 bootstrap=True,则指定每个基学习器使用的样本数。可以是整数或浮点数(比例)。 | 
2、代码实现
判断邮件是否是垃圾邮件
import pandas as pd
import matplotlib.pyplot as plt
from pylab import mpl
from sklearn.metrics import confusion_matrix
from sklearn import metrics
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
df = pd.read_csv('../data/spambase.csv')
# 可视化混淆矩阵
def cm_plot(y, yp):
    cm = confusion_matrix(y, yp)  # 计算混淆矩阵
    plt.matshow(cm, cmap=plt.cm.Blues)  # 使用蓝色调绘制混淆矩阵
    plt.colorbar()  # 添加颜色条
    for x in range(len(cm)):
        for y in range(len(cm)):
            # 在每个单元格中标注数值
            plt.annotate(cm[x, y], xy=(x, y), horizontalalignment='center', verticalalignment='center')
    plt.ylabel('True label')  # 设置y轴标签
    plt.xlabel('Predicted label')  # 设置x轴标签
    return plt
# 数据划分
x = df.iloc[:,:-1]
y = df.iloc[:,-1]
xtrain, xtest, ytrain, ytest = train_test_split(x,y,test_size=0.2,random_state=2)
rf = RandomForestClassifier(n_estimators=100,max_features=0.8,random_state=22)
rf.fit(xtrain,ytrain)
# 自测
train_predicted = rf.predict(xtrain)
res = metrics.classification_report(ytrain,train_predicted)
print('自测结果',res)
# 测试集测试
test_predicted = rf.predict(xtest)
res1 = metrics.classification_report(ytest,test_predicted)
print('测试集结果',res1)
# 可视化混淆矩阵
cm_plot(ytrain,train_predicted).show()
# 可视化重要特征
importances = rf.feature_importances_
im = pd.DataFrame(importances,columns=["importances"])
clos = df.columns
clos_1 = clos.values
clos_2 = clos_1.tolist()
clos = clos_2[0:-1]
im['clos'] = clos
im = im.sort_values(by=['importances'],ascending=False)[:10]
mpl.rcParams['font.sans-serif']=['Microsoft YaHei']
mpl.rcParams['axes.unicode_minus']= False
index = range(len(im))
plt.yticks(index,im.clos)
plt.barh(index,im['importances'])
plt.show() 
 



















