朴素贝叶斯笔记

news2025/7/21 1:42:08

贝叶斯公式

在A 条件成立下,B的概率等于B的概率*在B条件成立下,A的概率/A的概率,推导

假设一个学校中男生占总数的60%,女生占总数的40%。并且男生总是穿长裤,女生则一半穿长裤、一半穿裙子。

1.正向概率。随机选取一个学生,他(她)穿长裤和穿裙子的概率是多大?这就简单了,题目中已经

告诉大家男生和女生对于穿着的概率。

2.逆向概率。迎面走来一个穿长裤的学生,你只看得见他(她)穿的是否是长裤,而无法确定他

(她)的性别,你能够推断出他(她)是女生的概率有多大?

性别

长裤

裙子

男60%

100%

0%

女40%

50%

50%

假设总学生为U,穿长裤的男生的个数为:

=U*60%*100%

穿长裤的女生个数为:

=U*40%*50%

第2问的问题是:穿长裤的女生的概率,首先计算穿长裤的总人数

穿长裤的女生的概率:

合并得:

=

分母表示男生中穿长裤的人数和女生中穿长裤的人数的总和,就是P(Pants)

假设穿长裤用A表示,女生用B表示:

伯努利朴素贝叶斯API

sklearn.naive_bayes.BernoulliNB

高斯朴素贝叶斯API

sklearn.naive_bayes.GuassianNB

多项式朴素贝叶斯API

sklearn.naive_bayes.MultinomialNB

实例

1、处理鸢尾花数据,为连续性数据,应使用高斯朴素贝叶斯

from sklearn.naive_bayes import MultinomialNB,BernoulliNB,GaussianNB
import pandas as pd
from sklearn.model_selection import train_test_split

#读取数据
path = r'D:\python\2023\机器学习\分类data\iris.csv'
df = pd.read_csv(path)
df.columns = ['type1','type2','type3','type4','target']
#df = load_iris()
#print(df)
#取出目标值及特征值
y = df['target']
x = df.drop('target',axis=1)
print(x)
#将数据进行分为训练集及测试集
x_train,x_test,y_train,y_test = train_test_split(x,y,train_size=0.25)
#特征工程

#数据建模算法
bys = GaussianNB()
bys.fit(x_train,y_train)
y_predict = bys.predict(x_test)
print('预测结果:',y_predict)
print('高斯朴素贝叶斯的正确率为:',bys.score(x_test,y_test))

若用多项式朴素贝叶斯

from sklearn.naive_bayes import MultinomialNB,BernoulliNB,GaussianNB
import pandas as pd
from sklearn.model_selection import train_test_split

#读取数据
path = r'D:\python\2023\机器学习\分类data\iris.csv'
df = pd.read_csv(path)
df.columns = ['type1','type2','type3','type4','target']
#df = load_iris()
#print(df)
#取出目标值及特征值
y = df['target']
x = df.drop('target',axis=1)
print(x)
#将数据进行分为训练集及测试集
x_train,x_test,y_train,y_test = train_test_split(x,y,train_size=0.25)
#特征工程

#数据建模算法
bys = MultinomialNB()#默认alpha=1.0
bys.fit(x_train,y_train)
y_predict = bys.predict(x_test)
print('预测结果:',y_predict)
print('多项式朴素贝叶斯的正确率为:',bys.score(x_test,y_test))

2、多项式朴素贝叶斯处理新闻数据

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split


news = fetch_20newsgroups(subset='all')
#数据分割
x_train,x_test,y_train,y_test = train_test_split(news.data,news.target,test_size=0.25)

#特征抽取
tf = TfidfVectorizer()
#以训练集当中的词的列表进行每篇文章重要性统计
x_train = tf.fit_transform(x_train)

print(tf.get_feature_names())

x_test = tf.transform(x_test)

#进行多项式朴素贝叶斯预测
mlt = MultinomialNB(alpha=1.0)
print(x_train)
mlt.fit(x_train,y_train)
y_predict = mlt.predict(x_test)

print('预测文章类别是:',y_predict)
print('准确率是:',mlt.score(x_test,y_test))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/368640.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

白盒测试方法的简单理解(通俗易懂)

白盒测试主要使用逻辑覆盖测试方法,包括语句覆盖、判定覆盖、条件覆盖、判定-条件覆盖、条件组合覆盖、路径覆盖等。 假设逻辑判断流程图如下图所示,我们简单来说说每种白盒测试方法是如何来进行的。 一、语句覆盖 语句覆盖的定义是:程序中…

Openwrt中动态IPV6 防火墙的正确设置方法

环境:光猫桥接公网IPV6 问题:动态IPV6地址不知道怎么设置防火墙 解决办法:模糊匹配前缀,特定后缀 背景:将家中光猫桥接后,获得了公网的IPV6地址,可以从外部用IPV6访问家中的设备,但I…

vue-cli引入wangEditor、Element,封装可上传附件的富文本编辑器组件(附源代码直接应用,菜单可调整)

关于Element安装引入,请参考我的另一篇文章:vue-cli引入Element Plus(element-ui),修改主题变量,定义全局样式_shawxlee的博客-CSDN博客_chalk variables 1、安装wangeditor npm i wangeditor --savewangE…

日常编程中和日期相关的代码和bug

本文主要是Java中和日期时间相隔的几个常用代码函数代码,做了总结,希望在日常编码中,可以帮到大家。 1.计算闰年 记住一个短语,“四年一润,百年不闰,四百再润”,不管换啥语言,相信…

HyperGBM用Adversarial Validation解决数据漂移问题

本文作者:杨健,九章云极 DataCanvas 主任架构师 数据漂移问题近年在机器学习领域来越来越得到关注,成为机器学习模型在实际投产中面对的一个主要挑战。当数据的分布随着时间推移逐渐发生变化,需要预测的数据和用于训练的数据分布…

剑指 Offer 30. 包含min函数的栈

摘要 剑指 Offer 30. 包含min函数的栈 一、栈解析 package Stock;import java.util.Stack;/*** Classname JZ30min函数栈* Description TODO* Date 2023/2/24 18:59* Created by xjl*/ public class JZ30min函数栈 {/*** description 最小栈的含义是每次从栈中获取的数据都是…

AWS攻略——使用中转网关(Transit Gateway)连接不同区域(Region)VPC

文章目录Peering方案Transit Gateway方案环境准备创建Transit Gateway Peering Connection接受邀请修改中转网关路由修改被邀请方中转网关路由修改邀请方中转网关路由测试修改Public子网路由知识点参考资料区别于 《AWS攻略——使用中转网关(Transit Gateway)连接同区域(Region…

深入理解Spring Boot的自动配置

通过spring boot可以很方便的独立运行spring应用程序,因为spring boot内嵌了Tomcat、Jetty等servlet容器,切提供自动配置功能,无需进行XML配置即可自动运行应用程序。那么Spring boot启动过程中具体进行了哪些操作呢?下面是Spring…

Julia 数学函数

Julia 提供了一套高效、可移植的标准数学函数。 数值比较 下表列出了用于数值比较的函数: 函数测试是否满足如下性质isequal(x, y)x 与 y 值与类型是否完全相同isfinite(x)x 是否是有限大的数字isinf(x)x 是否是(正/负)无穷大isnan(x)x 是否…

项目重构,从零开始搭建一套新的后台管理系统

背景 应公司发展需求,我决定重构公司的后台管理系统,从提出需求建议到现在的实施,期间花了将近半个月的时间,决定把这些都记录下来。 之前的后台管理系统实在是为了实现功能而实现的,没有考虑到后期的扩展性&#xf…

SpringMVC常见面试题(2023最新)

目录前言1.简单介绍下你对springMVC的理解?2.说一说SpringMVC的重要组件及其作用3.SpringMVC的工作原理或流程4.SpringMVC的优点5.SpringMVC常用注解6.SpringMVC和struts2的区别7.怎么实现SpringMVC拦截器8.SpringMvc的控制器是不是单例模式?如果是,有什…

关基系统三月重保安全监测怎么做?ScanV提供纯干货!

三月重保当前,以政府、大型国企央企、能源、金融等重要行业和领域为代表的关键信息基础设施运营单位都将迎来“网络安全大考”。 对重要关基系统进行安全风险监测并收敛暴露面,响应监管要求进行安全加固,重保期间实时安全监测与数据汇报等具体…

js函数声明方式*2,对象声明方式*7,不同的调用

目录 一、两种函数声明方式 二、七种对象声明方式 一、两种函数声明方式 【1】命名函数 形如: function fu1(){ let firstName 111111111 let lastName 2222222 console.log(firstName ,lastName ) } function fu2(firstName,lastName ){ …

Linux 线程优先级

目录标题概述Linux进程调度的三种策略Linux 线程优先级对于实时任务对于普通任务top中的PR和NI其他说明代码示例设置为实时进程优先级测试代码概述 概述内容 常见的运用场景: 1:2;3; Linux进程调度的三种策略 SCHED_OTHER,分时调度策略&#…

【读论文】AttentionFGAN

【读论文】AttentionFGAN介绍网络架构提取红外图像目标信息的网络辨别器损失函数生成器损失函数辨别器损失函数总结参考论文: https://ieeexplore.ieee.org/document/9103116/如有侵权请联系博主介绍 好久没有读过使用GAN来实现图像融合的论文了,正好看…

【Java面试八股文宝典之基础篇】备战2023 查缺补漏 你越早准备 越早成功!!!——Day14

大家好,我是陶然同学,软件工程大三今年实习。认识我的朋友们知道,我是科班出身,学的还行,但是对面试掌握不够,所以我将用这100多天更新Java面试题🙃🙃。 不敢苟同,相信大…

计算机专业要考什么证书?

大家好,我是良许。 从去年 12 月开始,我已经在视频号、抖音等主流视频平台上连续更新视频到现在,并得到了不错的评价。 视频 100% 原创录制,绝非垃圾搬运号,每个视频都花了很多时间精力用心制作,欢迎大家…

Android高仿陌陌应用点点滑动效果

效果图:分析:从效果上看图片的展示具有层次感,在数据结构上更像是stack,所以通过继承FrameLayout来实现(不清楚FrameLayout布局特点的可以先百度下哈),外面是通过继承FrameLayout自定义的TinderStackLayout&#xff0c…

SpringBoot-基础篇

SpringBoot基础篇 ​ 在基础篇中,我给学习者的定位是先上手,能够使用SpringBoot搭建基于SpringBoot的web项目开发,所以内容设置较少,主要包含如下内容: SpringBoot快速入门SpringBoot基础配置基于SpringBoot整合SSMP…

为你的Vue2.x老项目安装Vite发动机吧

天下苦webpack久矣,相信作为前端开发者一定经历过在项目迭代时间较长的时候经历漫长等待的这一过程,每一次保存都会浪费掉大量时间,这是webpack这种机制所带来的问题。 于是,尤大为我们带来了新一代前端构建工具:vite…