决策树 随机森林面试详解|剪枝、过拟合、特征重要性
前言决策树逻辑直观易懂,是面试高频基础算法,衍生出的随机森林更是工业界常用集成模型。面试常考三大树算法区别、划分依据、剪枝策略、优缺点、特征重要性、过拟合解决办法,本文全部整理成背诵版答案,轻松应对口述提问。一、决策树基础概念什么是决策树仿照人类决策思维,通过多层特征判断逐层分支,最终输出分类 / 回归结果,树形结构清晰,可视化强。决策树可做什么任务既可以做分类任务,也可以做回归任务。决策树构建核心思路遍历所有特征,选择最优划分特征,不断分裂节点,直到满足停止条件生成完整树。二、三大主流决策树算法核心区别(必背)1.ID3划分准则:信息增益只支持离散型特征偏向取值较多的特征,容易产生偏向性无法处理连续值、缺失值2.C4.5划分准则:信息增益率修正 ID3 取值偏向问题支持连续特征离散化、可处理缺失值计算复杂度偏高,运行速度慢3.CART划分准则:基尼系数二叉树结构,每次只二分既能分类也能回归,适用性最强sklearn 中默认使用 CART 树三、核心指标简答信息熵衡量样本集合混乱程度,熵越大数据越杂乱,纯度越低。信息增益划分前后熵的差值,差值越大,代表该特征分类效果越好。基尼系数数值越小,样本纯度越高,分类效果越好,取值区间 0~1。四、决策树停止生长条件节点所有样本属于同一类别,无需再划分达到预设最大树深度节点样本数量小于设定阈值特征全部使用完毕,无特征可划分划分之后增益提升极小,停止分裂五、决策树过拟合原因与解决办法过拟合原因树深度过大、分支过多,学习到训练集噪声与无关细节,泛化能力变差。两大剪枝策略预剪枝(训练时剪枝)构建树过程中提前限制深度、限制节点样本数,提前阻止树生长,速度快。后剪枝(训练完成剪枝)先生成完整树,自下而上删除冗余分支,泛化效果更好,计算成本更高。日常调参防过拟合max_d
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2637217.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!