西瓜书-决策树

news2025/10/31 17:07:42

决策树

在这里插入图片描述

在这里插入图片描述
决策树划分时，当前属性集为空，或所有样本在所有属性上取值相同，将结点标记为叶节点，其类别标记为当前样本集中样本数最多的类。

决策树算法的核心在于：选择最优划分属性
判别分类的三种情形：

当前节点包含的样本全属于一个类别，则可视为叶子节点，分类就是本身
当前节点为空，则分类就是父类的分类
当前节点包含样本不全属于一个类别，那么多数作为类别

信息增益information gain

在这里插入图片描述

ID3

在二分类任务中，若当前样本集合的正类和负类的数量刚好各一半，此时信息熵为 $Ent(D)=-(\frac{1}{2}log_{2}\frac{1}{2}+\frac{1}{2}log_{2}\frac{1}{2})=1$
信息增益=划分前的信息熵-第v个分支的权重*划分后的信息熵
在这里插入图片描述

C4.5

$I V (a)$ 的形式是在做规范化，其把原来不可以直接比较的东西变得可比较。归一化是规范化的特例，归一化是把规范化的范围限制在[0,1]区间。
由于无法判断 $G ain (D, a)$ 与 $I V (a)$ 之间应该是控制 $G ain (D, a)$ 更大，还是控制 $I V (a)$ 更小，采用启发式的方法——先从候选划分属性中找出信息增益高于平均水平的，再从中选取增益率最高的。
在这里插入图片描述

CART算法，基尼指数

按照概率来理解，如果每次抓两个球，如果两次抓到的球属于同一类，说明候选属性集合比较纯；因此 $G ini (D)$ 中，抓球抓到第一类的概率是 $\sum_{k=1}^{|y|}p_k$ ,抓球抓到第二类的概率是 $\sum_{k \prime \ne k}p_k^{\prime}$ ,如果二者乘积越小，数据集D的纯度越高。同理，用1-两次抓出相同类型球的概率（纯度）=不纯度,即 $G ini (D)$ .
在这里插入图片描述

以上三种划分算法的区别

划分选择VS剪枝

划分选择的三种算法差异不明显；而剪枝方法和程度对决策树泛化性能的影响更为显著。
在这里插入图片描述
剪枝的目的在于尽量避免过拟合，基本策略包括预剪枝和后剪枝，评估剪枝前后的优劣用到第二章的评估方法。

缺失值的处理思路

在这里插入图片描述

样本赋权，权重划分

在这里插入图片描述

权重划分：给定划分属性，若样本在该属性上的值缺失，会按权重同时进入所有分支。
对于缺失值样本（红色），其在三个类别上的权重不再是1，而分别是7/15,5/15.3/15，注意，虽然有17个样本，但2个缺失，故分母取得15.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/104821.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

[前端攻坚]：详解call、apply、bind的实现

[前端攻坚]：详解call、apply、bind的实现

call apply bind 的实现的面试中几乎必定出现的一些内容，今天来用一篇文章整理一下这里的内容，加深一下JS基础知识体系。同时文章也被收录到我的《JS基础》专栏中，欢迎大家点击收藏加关注。 call的实现 call() 方法使用一个指定的 this 值和单…

阅读更多...

Oracle Ask Tom分区学习系列: 面向开发者的分区（Partitioning）教程

Oracle Ask Tom分区学习系列: 面向开发者的分区（Partitioning）教程

Oracle Partitioning: A Step-by-Step Introduction for Developers是Oracle数据库开发者课程之一。 Development with Oracle Partitioning/使用 Oracle 分区进行开发 Partitioning in the database reflects the same way we handle large tasks in the real world. When a t…

阅读更多...

Redis分布式锁的10个坑

Redis分布式锁的10个坑

前言大家好，我是田螺。日常开发中，经常会碰到秒杀抢购等业务。为了避免并发请求造成的库存超卖等问题，我们一般会用到Redis分布式锁。但是使用Redis分布式锁，很容易踩坑哦~ 本文田螺哥将给大家分析阐述，Redis分布式…

阅读更多...

如何优化 MySQL 服务器

如何优化 MySQL 服务器

有一些数据库服务器的优化技术，主要是管理系统配置而不是调整 SQL 语句。它适用于那些希望确保服务器的性能以及可伸缩性的 DBA，以及适用于启动安装脚本建立数据库和运行 MySQL 自己进行开发、测试等以提生产力的开发人员。系统因素一些系统级方面也会…

阅读更多...

推荐几个方法教你学会怎样制作视频剪辑

推荐几个方法教你学会怎样制作视频剪辑

随着时代的发展，新媒体行业的壮大，应该不少小伙伴每天都需要制作视频剪辑吧，有些可能是因为从事短视频行业，每天就需要发送视频内容，才能吸引观众，也有些可能只是想单纯分享一些生活视频。那你知道如何制作…

阅读更多...

List接口-ArrayList、LinkedList和Vector

List接口-ArrayList、LinkedList和Vector

1.List 接口和常用方法 1.1List 接口基本介绍 import java.util.ArrayList; import java.util.List;public class List_ {SuppressWarnings({"all"})public static void main(String[] args) {//1. List集合类中元素有序(即添加顺序和取出顺序一致)、且可重复 [案例]…

阅读更多...

Linux网络编程之socket通信

Linux网络编程之socket通信

Linux网络编程之socket通信一、socket相关函数使用 1.1 IP地址转换函数： 小端法：（pc本地存储） 高位存高地址，低位存低地址。大端法：（网络存储） 高位存低地址，低位存…

阅读更多...

13基于多目标粒子群算法的微电网优化调度（matlab程序）

13基于多目标粒子群算法的微电网优化调度（matlab程序）

参考文献基于多目标粒子群算法的微电网优化调度——王金全（2014电网与清洁能源） 主要内容针对光伏电池、风机、微型燃气轮机、柴油发电机以及蓄电池组成的微电网系统的优化问题进行研究，在满足系统约束条件下，建立了包含运行…

阅读更多...

day25【代码随想录】左叶子之和、找树左下角的值、从中序与后序遍历序列构造二叉树、从中序与前序遍历序列构造二叉树、最大二叉树

day25【代码随想录】左叶子之和、找树左下角的值、从中序与后序遍历序列构造二叉树、从中序与前序遍历序列构造二叉树、最大二叉树

文章目录前言一、左叶子之和（力扣404）1、递归遍历2、非递归遍历二、找树左下角的值（力扣513）1、迭代法（层序遍历）2、递归法三、从中序与后序遍历序列构造二叉树（力扣106）四、从中序与…

阅读更多...

微服务框架 SpringCloud微服务架构微服务面试篇 54 微服务篇 54.1 SpringCloud常见组件有哪些？

微服务框架 SpringCloud微服务架构微服务面试篇 54 微服务篇 54.1 SpringCloud常见组件有哪些？

微服务框架【SpringCloudRabbitMQDockerRedis搜索分布式，系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】微服务面试篇文章目录微服务框架微服务面试篇54 微服务篇54.1 SpringCloud常见组件有哪些？54 微服务篇 54.1 SpringCloud常见组…

阅读更多...

【验证码逆向专栏】某片滑块、点选验证码逆向分析

【验证码逆向专栏】某片滑块、点选验证码逆向分析

声明本文章中所有内容仅供学习交流使用，不用于其他任何目的，不提供完整代码，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！ 本文章未…

阅读更多...

30岁了想转行学Python,来得及吗？

30岁了想转行学Python,来得及吗？

是否来得及要看决心有多大，行动力有多强。一般来说，只要目标明确，足够自律，心理强大，做任何事情都是来得及的，当下就是最好的开始。30岁真的不算啥，有人四五十岁才开始奋斗，依然能过…

阅读更多...

C语言之内存管理（十七）（转世灵童现世）

C语言之内存管理（十七）（转世灵童现世）

上一篇: C语言入门篇之轮回法器（十六）（指针第五卷） 逐梦编程，让中华屹立世界之巅。简单的事情重复做,重复的事情用心做,用心的事情坚持做； 文章目录前言一、内存管理具体介绍1.作用域2.生命周期的定义3.局…

阅读更多...

为什么说学人工智能一定要学Python？

为什么说学人工智能一定要学Python？

有很多人在问博主，为什么人工智能学习要用Python？运行速度慢不好之类的，今天就让博主谈谈自己的感受。先来说说前景随着“大数据”“云计算”“人工智能”等等科技的兴起，IT行业在今后三到五年将会迎来一个高速发展期。这也就意…

阅读更多...

QT调用python传递图像和二维数组，并接受python返回值(图像)

QT调用python传递图像和二维数组，并接受python返回值(图像)

任务目的： 用QT调用python代码，将QT读取的图像(Mat矩阵)作为参数传入python中，将QT的二维数组作为参数传递给python，python接收QT传入的图像进行计算，将结果返回给QT。实现过程 1.新建QT项目说明：QT的…

阅读更多...

[Cortex-M3]-5-cache uncache

[Cortex-M3]-5-cache uncache

目录 1 cache的引入 2 cache的工作原理 3 cache使用限制 1 cache的引入程序运行的流程（很简单）： 程序编译：存放在flash；程序加载：程序加载到内存；程序运行：指令从内存复制到CP…

阅读更多...

【产品人卫朋】自媒体运营的5个阶段，以及增长策略

【产品人卫朋】自媒体运营的5个阶段，以及增长策略

本篇内容以微信公众号为例讲解自媒体的运营策略。建立一个快速发展的微信公众号，需要多长时间呢？ 有些人在一年内就可以建立一个蓬勃发展的公众号，而其他人则可能需要两年、三年甚至是五年的时间。在发展的过程中，你的公众号将经…

阅读更多...

阿里工程师告诉你，0基础如何自学python进大厂

阿里工程师告诉你，0基础如何自学python进大厂

大概一年前这个朋友就想学习Python了，但因为工作比较忙，而且觉得Python肯定不太好学，所以一直搁置在那里。宅家学Python 到了今年1月28日也就是大年初三的时候，眼看新冠肺炎疫情不会短时间结束了，全国各地都在严控&…

阅读更多...

原型模式

原型模式

开始原型模式前，我们要知道深拷贝的定义，因为原型模式中的克隆操作核心就是深拷贝。深拷贝和浅拷贝下图为浅拷贝(即是编译器的默认版本), 只拷贝了指针, 两个指针同时指向一个内存, 会有危险(a改变时b也改变, 称为别名) , 导致内存泄漏调用strcpy复…

阅读更多...

Qt扫盲-QTreeWidget理论总结

Qt扫盲-QTreeWidget理论总结

QTreeWidget理论总结1. 简述2. QTreeWidgetItem 简述3. 头标签4. 常用功能5. 槽函数6. 信号1. 简述 QTreeWidget 类是Qt提供了一个标准的树部件，该部件具有经典的基于 Item 的界面，每个Item都是一个 QTreeWidgetItem。这个标准的树控件不需要model/view…

阅读更多...

推荐文章

最新文章