【机器学习】分类器

news2025/7/9 5:34:29

在机器学习(Machine Learning,ML)中,分类器泛指算法或模型,用于将输入数据分为不同的类别或标签。分类器是监督学习的一部分,它依据已知的数据集中的特征和标签进行训练,并根据这些学习到的知识对新的未标记数据进行分类。

分类器的目标是从输入数据中提取有用的特征,并根据这些特征对数据进行分类。这些特征可以是数值型、类别型或其他类型的数据。分类器可以根据数据的属性和学习算法的选择,采用不同的方法进行分类。本文介绍4种常见的分类器:SVM、KNN、RF、NB。

目录

一.SVM

1.原理

2.鸢尾花分类预测

二.KNN

1.原理

2.鸢尾花分类预测

三.RF

1.原理

2.鸢尾花分类预测

四.NB

1.原理

2.鸢尾花分类预测

一.SVM

1.原理

支持向量机(SupportVectorMachine,SVM)是由Vapnik等人运用统计学理论中的结构风险最小化准则和VC维理论提出的一种依赖核函数的机器学习分类算法,其原理是:寻找分类的最优超平面,使超平面两侧类别的边缘距离最大。样本集\left \{(x_{1},y_{1}), (x_{2},y_{2}),...,(x_{n},y_{n})\right \},分类函数为

其中,ω是权值向量,b是偏移量。

下图为线性可分的二分类问题的支持向量机示例。

其中,H 是最优超平面,对应\omega x+b=0H_{1}H_{2}分别为类1和类2距离H的最近样本点,称为支持向量。 依据结构风险最小化准则,寻找最优超平面等价为:

其中,\xi _{i}\xi _{i}^{*}分别为松弛因子的上限和下限,C表示惩罚因子,i=1,2,…n。 引入拉格朗日算子\alpha _{i},分类阈值b*,最优分类函数为:

样本集线性不可分时,引入核函数K将样本转换到近似线性可分的空间,对应的最优分类函数为:

常用的径向基核函数的表达式如下。

2.鸢尾花分类预测

Scikit-learn是一个强大的Python库,提供丰富的机器学习算法和工具。利用Scikit-learn里面的SVM实现鸢尾花分类的代码如下。

from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris

# 加载数据
X, y = load_iris(return_X_y=True)
# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练SVM模型
model = SVC(kernel='linear')
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)
# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

二.KNN

1.原理

K近邻分类器(K-nearest neighbour,KNN)是1种非线性分类算法,算法原理为:如果1个待预测样本附近的K个最近样本的大多数属于某一个类别,则该样本也属于这个类别。

以下图为例。

K=3时,距离待分类的绿色圆点最近的3个邻居为为2个红色三角形和1个蓝色正方形,基于统计的方法判定绿色圆点属于红色三角形类别。

K=5时,距绿色圆点最近的5个邻居为为2个红色三角形和3个蓝色正方 形,此时绿色圆点为蓝色正方形类别。

2.鸢尾花分类预测

利用Scikit-learn里面的KNN实现鸢尾花分类的代码如下。

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris

# 加载数据
X, y = load_iris(return_X_y=True)
# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练KNN模型
knn_model = KNeighborsClassifier(n_neighbors=5)
knn_model.fit(X_train, y_train)

# 预测
y_pred = knn_model.predict(X_test)
# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

三.RF

1.原理

随机森林(RandomForest,RF)是1个包含多个决策树的分类器,最终输出类别由统计得到的各个决策树的分类类别的众数决定。随机森林分类器的构建主要有数据的随机选取以及候选特征的随机选取2个方面。

数据的随机选取

在原始数据集N个样本中进行有放回的抽样,构造样本大小也为N的子决策树数据集,同1个子决策树数据集的元素可以重复,不同子决策树数据集的元素也可以重复。如下图所示。

候选特征的随机选取

与子决策树数据集的随机选取相似,在子决策树分类过程中从M个原始特征中随机选取m个特征,然后再从m(m远小于M)个特征中选取最优的特征, 如下图所示。

2.鸢尾花分类预测

利用Scikit-learn里面的RF实现鸢尾花分类的代码如下。

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris

# 加载数据
X, y = load_iris(return_X_y=True)
# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练随机森林模型
rf_model = RandomForestClassifier(n_estimators=100)
rf_model.fit(X_train, y_train)

# 预测
rf_pred = rf_model.predict(X_test)
# 评估
rf_accuracy = accuracy_score(y_test, rf_pred)
print(f'Random Forest Accuracy: {rf_accuracy}')

四.NB

1.原理

朴素贝叶斯分类器(Naive Bayes,NB)的基础是贝叶斯决策理论,假设样本之间的特征相互独立。

朴素贝叶斯的算法原理是:训练样本集X=\left \{ x_{1} ,x_{2},...,x_{n}\right \},类别集合Y=\left \{ y_{1} ,y_{2},...,y_{n}\right \} ,样本特征集合T=\left \{ t_{1} ,t_{2},...,t_{n}\right \},对于待分类样本x_{i},计算x_{i}出现 的条件下,各个类别出现的概率,概率最大的类别即为x_{i}所属的类别。

2.鸢尾花分类预测

利用Scikit-learn里面的NB实现鸢尾花分类的代码如下。

from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris

# 加载数据
X, y = load_iris(return_X_y=True)
# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练朴素贝叶斯模型
nb_model = GaussianNB()
nb_model.fit(X_train, y_train)

# 预测
y_pred = nb_model.predict(X_test)
# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2259115.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uni-app在image上绘制点位并回显

在 Uni-app 中绘制多边形可以通过使用 Canvas API 来实现。Uni-app 是一个使用 Vue.js 开发所有前端应用的框架,同时支持编译为 H5、小程序等多个平台。由于 Canvas 是 H5 和小程序中都支持的 API,所以通过 Canvas 绘制多边形是一个比较通用的方法。 1.…

【机器学习与数据挖掘实战】案例01:基于支持向量回归的市财政收入分析

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈机器学习与数据挖掘实战 ⌋ ⌋ ⌋ 机器学习是人工智能的一个分支,专注于让计算机系统通过数据学习和改进。它利用统计和计算方法,使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数…

Spire.PDF for .NET【页面设置】演示:向 PDF 文档添加页码

在 PDF 文档中添加页码不仅实用,而且美观,因为它提供了类似于专业出版材料的精美外观。无论您处理的是小说、报告还是任何其他类型的长文档的数字副本,添加页码都可以显著提高其可读性和实用性。在本文中,您将学习如何使用Spire.P…

【iOS】OC高级编程 iOS多线程与内存管理阅读笔记——自动引用计数(三)

目录 ARC规则 概要 所有权修饰符 __strong修饰符 __weak修饰符 __unsafe_unretained修饰符 __autoreleasing修饰符 ARC规则 概要 “引用计数式内存管理”的本质部分在ARC中并没有改变,ARC只是自动地帮助我们处理“引用计数”的相关部分。 在编译单位上可以…

An error happened while trying to locate the file on the Hub and we cannot f

An error happened while trying to locate the file on the Hub and we cannot find the requested files in the local cache. Please check your connection and try again or make sure your Internet connection is on. 关于上述comfy ui使用control net预处理器的报错问…

angular19-官方教程学习

周日了解到angular已经更新到19了,想按官方教程学习一遍,工欲善其事必先利其器,先更新工具: 安装新版版本 卸载老的nodejs 20.10.0,安装最新的LTS版本 https://nodejs.org 最新LTS版本已经是22.12.0 C:\Program File…

计算机毕业设计Python+Vue.js游戏推荐系统 Steam游戏推荐系统 Django Flask 游 戏可视化 游戏数据分析 游戏大数据 爬虫 机

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

上海亚商投顾:创业板指震荡调整 机器人概念股再度爆发

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 一.市场情绪 沪指昨日冲高回落,深成指、创业板指盘中跌超1%,尾盘跌幅有所收窄。机器人概念股逆势爆…

粘贴可运行:Java调用大模型(LLM) 流式Flux stream 输出;基于spring ai alibaba

在Java中,使用Spring AI Alibaba框架调用国产大模型通义千问,实现流式输出,是一种高效的方式。通过Spring AI Alibaba,开发者可以轻松地集成通义千问模型,并利用其流式处理能力,实时获取模型生成的文本。这…

【CSS in Depth 2 精译_070】11.3 利用 OKLCH 颜色值来处理 CSS 中的颜色问题(下):从页面其他颜色衍生出新颜色

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第四部分 视觉增强技术 ✔️【第 11 章 颜色与对比】 ✔️ 11.1 通过对比进行交流 11.1.1 模式的建立11.1.2 还原设计稿 11.2 颜色的定义 11.2.1 色域与色彩空间11.2.2 CSS 颜色表示法 11.2.2.1 RGB…

Ajax--实现检测用户名是否存在功能

目录 (一)什么是Ajax (二)同步交互与异步交互 (三)AJAX常见应用情景 (四)AJAX的优缺点 (五)使用jQuery实现AJAX 1.使用JQuery中的ajax方法实现步骤&#xf…

【PSINS】以速度和位置作为观测量(即6维观测量)的组合导航滤波,EKF实现,提供可直接运行的MATLAB代码

原有的代码是以位置作为观测量的,这里提供位置+速度,共6维的观测量,状态量还是15维不变 文章目录 源代码运行结果PS源代码 源代码如下: % 【PSINS】位置与速度为观测的153,EKF。从速度观测的EKF153改进而来 % 2024-12-11/Ver1:位置与速度为观测量% 清空工作空间,清除命…

探索云原生安全解决方案的未来

我们是否充分意识到云端所面临的网络安全威胁? 在当今互联互通的世界中,维护安全的环境至关重要。云的出现扩大了潜在威胁的范围,因为它催生了机器身份(称为非人类身份 (NHI))及其秘密。随着组织越来越多地转向云原生…

无法正常启动此程序,因为计算机丢失wlanapi.dll

wlanapi.dll丢失怎么办?有没有什么靠谱的修复wlanapi.dll方法_无法启动此程序,因为计算机中丢失wlanapi.dll-CSDN博客 wlanapi.dll是 Windows 操作系统中的一个动态链接库文件,主要与 Windows 无线 LAN (WLAN) API 相关。该DLL提供了许多必要的函数&…

ADC -DMA

文章目录 前言一、ADC配置修改二、配置DMA三、DMA中断四、完整参考代码总结 前言 提示:这里可以添加本文要记录的大概内容: 项目需要: 在原有基础上改进,采用DMA中断采集数据 提示:以下是本篇文章正文内容&#xff0…

Referer头部在网站反爬虫技术中的运用

网站数据的安全性和完整性至关重要。爬虫技术,虽然在数据收集和分析中发挥着重要作用,但也给网站管理员带来了挑战。为了保护网站数据不被恶意爬取,反爬虫技术应运而生。本文将探讨HTTP头部中的Referer字段在反爬虫技术中的应用,并…

docker搭建haproxy实现负载均衡

华子目录 获取haproxy镜像建立haproxy容器的数据卷获取haproxy的配置文件编写yaml文件运行测试 获取haproxy镜像 [rootdocker-node1 ~]# docker pull haproxy:2.3建立haproxy容器的数据卷 conf目录为数据卷 [rootdocker-node1 ~]# mkdir /var/lib/docker/volumes/conf/获取h…

阿里云数据库MongoDB版助力极致游戏高效开发

客户简介 成立于2010年的厦门极致互动网络技术股份有限公司(以下简称“公司”或“极致游戏”),是一家集网络游戏产品研发与运营为一体的重点软件企业,公司专注于面向全球用户的网络游戏研发与运营。在整个产业链中,公…

深入探索前端调试神器vConsole

深入探索前端调试神器vConsole 在前端开发过程中,调试工具的重要性不言而喻。而vConsole作为一款轻量级的、可嵌入的JavaScript调试面板,为前端开发者提供了一个便捷的调试解决方案。本文将带你深入了解vConsole的基本概念、作用,并通过丰富…

子网划分实例

看到有人问这个问题: 想了一下,这是一个子网划分的问题: 处理方法如图: 这是一个子网划分的问题 设备1用三层交换机,端口设置为路由模式,设备2和设备3为傻瓜交换机模式 设备2和设备3下挂设备都是26为掩码&…