机器学习进阶(12.5):树模型调参
第 12.5 篇树模型调参与特征重要性原理补充篇第十二篇讲了调参和特征重要性直觉怎么判断欠拟合/过拟合哪些参数对模型复杂度影响最大特征重要性怎么看这里我们深入讲为什么这些参数有效以及特征重要性背后的数学原理。1. 树模型复杂度和偏差-方差回忆一下偏差-方差分解总误差偏差2方差噪声 \text{总误差} \text{偏差}^2 \text{方差} \text{噪声}总误差偏差2方差噪声树深太浅 → 高偏差 → 欠拟合树深太深 → 高方差 → 过拟合调参的本质就是控制偏差与方差的平衡。2. 随机森林调参原理1n_estimators树数量方差公式Var(yˉ)1B2∑i1BVar(yi)1B2∑i≠jCov(yi,yj) \text{Var}(\bar{y}) \frac{1}{B^2} \sum_{i1}^B \text{Var}(y_i) \frac{1}{B^2} \sum_{i\neq j} \text{Cov}(y_i, y_j)Var(yˉ)B21i1∑BVar(yi)B21ij∑Cov(yi,yj)树越多平均方差越低树之间相关性越低方差下降效果越明显2max_features节点分裂随机特征随机选择特征降低树之间相关性减少整体方差提高泛化能力3max_depth、min_samples_leaf单棵树复杂度限制单棵树深度和叶子样本数 → 控制方差防止过拟合3. GBDT 调参原理learning_rate每棵树修正残差的步长学习率小 → 每步修正温和 → 泛化能力更好学习率大 → 每步修正猛 → 更容易过拟合n_estimators树的数量树多 → 模型更强但训练慢max_depth每棵树的深度浅树 → 弱学习器 → 每棵树只做局部修正深树 → 单步修正大 → 易过拟合subsample、colsample_bytree随机采样样本和特征增加多样性 → 降低方差 → 提高稳健性4. 特征重要性原理1基于分裂纯度的特征重要性每次节点分裂计算特征带来的纯度提升Gini 或信息增益对所有树求平均 → 得到特征重要性分数公式直观理解FI(f)∑节点分裂用到特征 fΔ纯度×节点样本数总样本数 FI(f) \sum_{\text{节点分裂用到特征 f}} \Delta \text{纯度} \times \frac{\text{节点样本数}}{\text{总样本数}}FI(f)节点分裂用到特征f∑Δ纯度×总样本数节点样本数(Δ纯度\Delta \text{纯度}Δ纯度) 可以是 Gini 或熵下降2置换重要性Permutation Importance打乱某特征 → 测试模型性能下降多少下降越多 → 这个特征越关键公式FIperm(f)score∗original−score∗permuted(f) FI_{perm}(f) \text{score}*{\text{original}} - \text{score}*{\text{permuted(f)}}FIperm(f)score∗original−score∗permuted(f)这种方法更贴近“模型在预测上到底依赖这个特征多少”。5. 特征重要性的注意事项高重要性 ≠ 因果强高度相关特征 → 分摊重要性高基数类别 → 有时重要性被虚高6. 小结树模型调参本质控制偏差和方差随机森林靠多树投票降低方差GBDT靠顺序纠错降低训练误差特征重要性有两种常用方法纯度提升、置换理解原理你就知道为什么调参和特征重要性分析有效而不是盲调或盲信结果
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2486272.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!