机器学习:逻辑回归与混淆矩阵

news2025/7/23 23:40:36

本文目录:

  • 一、逻辑回归Logistic Regression
  • 二、混淆矩阵
    • (一)精确率precision
    • (二)召回率recall
    • (三)F1-score:了解评估方向的综合预测能力
    • (四)Roc曲线
    • (五)Auc面积

一、逻辑回归Logistic Regression

基本思想:逻辑回归的假设函数: h(w) = sigmoid(wx + b ),线性回归的输出,作为逻辑回归的输入;逻辑回归特别适用于二分类问题,也可以用于多分类问题的处理。

• 具体流程

  1. 利用线性模型 f(x) = wx + b 根据特征的重要性计算出一个值;
  2. 再使用 sigmoid 函数将 f(x) 的输出值映射为概率值;
  3. 设置阈值,进行判定。比如针对二分类问题,如果输出概率值大于阈值(eg: 0.5),则将未知样本输出为一类(eg: 1 类);否则输出为另一类(eg: 0 类)。

代码如下:

例:
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler


def dm01_LogisticRegression():
    # 1. 获取数据.
    data = pd.read_csv('data/breast-cancer-wisconsin.csv')
    data.info()

    # 2. 数据预处理.
    # data = data.replace(to_replace='?', value=np.NAN)
    data = data.replace('?', np.NaN)
    data = data.dropna()
    data.info()

    # 3. 确定特征值和目标值.
    x = data.iloc[:, 1:-1]
    y = data.Class
    print(f'x.head(): {x.head()}')
    print(f'y.head(): {y.head()}')

    # 3. 分割数据.
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=21)
    # 4. 特征处理.
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)
    # 5. 模型训练.
    estimator = LogisticRegression()
    estimator.fit(x_train, y_train)
    # 6. 模型预测
    y_predict = estimator.predict(x_test)
    print(f'预测值: {y_predict}')

    # 7. 模型评估
    print(f'准确率: {estimator.score(x_test, y_test)}')
    print(f'准确率: {accuracy_score(y_test, y_predict)}')

if __name__ == '__main__':
    dm01_LogisticRegression()

二、混淆矩阵

在这里插入图片描述

(一)精确率precision

精确率也叫做查准率,指的是对正例样本的预测准确率。
在这里插入图片描述
例子:**

样本集中有 6 个恶性肿瘤样本,4 个良性肿瘤样本,我们假设恶性肿瘤为正例,则:

模型 A: 预测对了 3 个恶性肿瘤样本,4 个良性肿瘤样本

  1. 真正例 TP 为:3
  2. 伪反例 FN 为:3
  3. 假正例 FP 为:0
  4. 真反例 TN:4
  5. 精准率:3/(3+0) = 100%

模型 B: 预测对了 6 个恶性肿瘤样本,1个良性肿瘤样本

  1. 真正例 TP 为:6
  2. 伪反例 FN 为:0
  3. 假正例 FP 为:3
  4. 真反例 TN:1
  5. 精准率:6/(6+3) = 67%

(二)召回率recall

召回率也叫做查全率,指的是预测为真正例样本占所有真实正例样本的比重。
在这里插入图片描述
例子:**

样本集中有 6 个恶性肿瘤样本,4 个良性肿瘤样本,我们假设恶性肿瘤为正例,则:

模型 A: 预测对了 3 个恶性肿瘤样本,4 个良性肿瘤样本

  1. 真正例 TP 为:3
  2. 伪反例 FN 为:3
  3. 假正例 FP 为:0
  4. 真反例 TN:4
  5. 精准率:3/(3+0) = 100%
  6. 召回率:3/(3+3)=50%

模型 B: 预测对了 6 个恶性肿瘤样本,1个良性肿瘤样本

  1. 真正例 TP 为:6
  2. 伪反例 FN 为:0
  3. 假正例 FP 为:3
  4. 真反例 TN:1
  5. 精准率:6/(6+3) = 67%
  6. 召回率:6/(6+0)= 100%

(三)F1-score:了解评估方向的综合预测能力

在这里插入图片描述

(四)Roc曲线

ROC 曲线

  1. 正样本中被预测为正样本的概率,即:TPR (True Positive Rate)
  2. 负样本中被预测为正样本的概率,即:FPR (False Positive Rate)

以FPR为横坐标,TPR为纵坐标,描出不同阈值下的点所形成的曲线就是Roc曲线。
在这里插入图片描述

(五)Auc面积

Auc面积:

AUC 是 ROC 曲线下面的面积,该值越大,则模型的辨别能力就越强。AUC 范围在 [0, 1] 之间,主要用来判断模型对正例和负例的辨别能力。

图像越靠近 (0, 1) 点则 ROC 曲线下面的面积就会越大,对正负样本的辨别能力就越强;当 AUC= 1 时,该模型被认为是完美的分类器,但是几乎不存在完美分类器。

例:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score


# 1. 定义函数, 表示: 数据基本处理
def dm01_数据基本处理():
    # 1. 读取数据, 查看数据的基本信息.
    churn_pd = pd.read_csv('data/churn.csv')
    # churn_pd.info()
    # print(f'churn_pd.describe(): {churn_pd.describe()}')
    # print(f'churn_pd: {churn_pd}')

    # 2. 处理类别型的数据, 类别型数据做 one-hot编码(热编码).
    churn_pd = pd.get_dummies(churn_pd)
    churn_pd.info()
    # print(f'churn_pd: {churn_pd}')

    # 3. 去除列 Churn_No, gender_Male
    churn_pd.drop(['Churn_No', 'gender_Male'], axis=1, inplace=True)  # 按列删除
    print(f'churn_pd: {churn_pd}')

    # 4. 列标签重命名, 打印列名
    churn_pd.rename(columns={'Churn_Yes': 'flag'}, inplace=True)
    print(f'列名: {churn_pd.columns}')

    # 5. 查看标签的分布情况 0.26用户流失
    value_counts = churn_pd.flag.value_counts()
    print(value_counts)


# 2. 定义函数, 表示: 特征筛选
def dm02_特征筛选():
    # 1. 读取数据
    churn_pd = pd.read_csv('data/churn.csv')
    # 2. 处理类别型的数据, 类别型数据做 one-hot编码(热编码).
    churn_pd = pd.get_dummies(churn_pd)
    # 3. 去除列 Churn_No, gender_Male
    churn_pd.drop(['Churn_No', 'gender_Male'], axis=1, inplace=True)
    # 4. 列标签重命名
    churn_pd.rename(columns={'Churn_Yes': 'flag'}, inplace=True)
    # 5. 查看标签的分布情况
    value_counts = churn_pd.flag.value_counts()
    print(value_counts)
    # 6. 查看Contract_Month 是否预签约流失情况
    sns.countplot(data=churn_pd, x='Contract_Month', hue='flag')
    plt.show()


# 3. 定义函数, 表示: 模型训练 和 评测
def dm03_模型训练和评测():
    # 1. 读取数据
    churn_pd = pd.read_csv('data/churn.csv')

    # 2. 数据预处理
    # 2.1 处理类别型的数据, 类别型数据做 one-hot编码(热编码).
    churn_pd = pd.get_dummies(churn_pd)
    # 2.2 去除列 Churn_No, gender_Male
    churn_pd.drop(['Churn_No', 'gender_Male'], axis=1, inplace=True)
    # 2.3 列标签重命名
    churn_pd.rename(columns={'Churn_Yes': 'flag'}, inplace=True)

    # 3. 特征处理.
    # 3.1 提取特征和标签
    x = churn_pd[['Contract_Month', 'internet_other', 'PaymentElectronic']]
    y = churn_pd['flag']
    # 3.2 训练集和测试集的分割
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=21)

    # 4. 模型训练.
    estimator = LogisticRegression()
    estimator.fit(x_train, y_train)

    # 5. 模型预测
    y_predict = estimator.predict(x_test)
    print(f'预测结果: {y_predict}')

    # 6. 模型评估
    print(f'准确率: {accuracy_score(y_test, y_predict)}')
    print(f'准确率: {estimator.score(x_test, y_test)}')

    # 计算AUC值.
    print(f'AUC值: {roc_auc_score(y_test, y_predict)}')



if __name__ == '__main__':
    # dm01_数据基本处理()
    # dm02_特征筛选()
    dm03_模型训练和评测()

今天的分享到此结束。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2400965.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

20250602在荣品的PRO-RK3566开发板的Android13下打开HDMI显示

20250602在荣品的PRO-RK3566开发板的Android13下打开HDMI显示 2025/6/2 16:20 缘起:貌似荣品的PRO-RK3566开发板的Android13默认关闭了HDMI显示。 据说:荣品确认RK3566的GPU比较弱,同时开【MIPI接口的】LCD屏显示和HDMI显示容易出现异常。 更…

AI在网络安全领域的应用现状和实践

当前,人工智能技术已深度融入网络安全产品,推动传统防御模式向智能化、自适应方向加速演进。各安全厂商通过机器学习、深度学习与知识图谱等技术的融合应用,提高安全产品在威胁检测、攻击溯源、风险评估等场景的能力跃迁,突破传统…

鸿蒙任务项设置案例实战

目录 案例效果 资源文件与初始化 string.json color.json CommonConstant 添加任务 首页组件 任务列表初始化 任务列表视图 任务编辑页 添加跳转 任务目标设置模型(formatParams) 编辑页面 详情页 任务编辑列表项 目标设置展示 引入目标…

TDengine 的 AI 应用实战——运维异常检测

作者: derekchen Demo数据集准备 我们使用公开的 NAB数据集 里亚马逊 AWS 东海岸数据中心一次 API 网关故障中,某个服务器上的 CPU 使用率数据。数据的频率为 5min,单位为占用率。由于 API 网关的故障,会导致服务器上的相关应用…

使用Plop.js高效生成模板文件

前情 开发是个创造型的职业,也是枯燥的职业,因为开发绝大多数都是每天在业务的代码中无法自拨,说到开发工作,就永远都逃不开新建文件的步骤,特别现在组件化开发胜行,每天都是在新建新建组件的道路上一去不…

Vue框架2(vue搭建方式2:利用脚手架,ElementUI)

一.引入vue第二种搭建方式 在以前的前端项目中,一个项目需要多个html文件实现页面之前的切换,如果页面中需要依赖js或者css文件,那么我们就需要在多个html文件中都需要导入vue.js文件,太过繁琐. 现在前端开发都采用单页面结果,一个项目中只有一个html文件 其他不同的内容都写…

mac 设置cursor (像PyCharm一样展示效果)

一、注册 Cursor - The AI Code Editor 二、配置Python环境 我之前使用pycharm创建的python项目,以及创建了虚拟环境,现在要使用cursor继续开发。 2.1 选择Python 虚拟环境 PyCharm 通常将虚拟环境存储在项目目录下的 venv 或 .venv 文件夹中&#xf…

SpringCloudAlibaba微服务架构

技术架构图 SpringCloudAlibaba微服务架构 说明: 1.1、采用SpringCloudAlibaba分布式微服务架构,使用Nginx做代理,服务治理使用Nacos组件,Gateway网关做权限验证、路由、过滤。 1.2、Redis做消息缓存,包括数据大屏、数…

Java高级 | 【实验三】Springboot 静态资源访问

隶属文章: Java高级 | (二十二)Java常用类库-CSDN博客 系列文章: Java高级 | 【实验一】Spring Boot安装及测试 最新-CSDN博客 Java高级 | 【实验二】Springboot 控制器类相关注解知识-CSDN博客 目录 一、Thymeleaf 1.1 是什么&…

「Java教案」Java程序的构成

课程目标 1.知识目标 能够按照Java标识符的命名规则,规范变量的命名。能够区分Java中的关键字与保留字。能够对注释进行分类,根据注释的用途合理的选择注释方式。 2.能力目标 能编写符合规范的标识符。能识别Java中的关键字和…

区块链可投会议CCF B--EDBT 2026 截止10.8 附录用率

Conference:EDBT: 29th International Conference on Extending Database Technology CCF level:CCF B Categories:数据库/数据挖掘/内容检索 Year:2026 Conference time:24th March - 27th…

经典ReLU回归!重大缺陷「死亡ReLU问题」已被解决

来源 | 机器之心 在深度学习领域中,对激活函数的探讨已成为一个独立的研究方向。例如 GELU、SELU 和 SiLU 等函数凭借其平滑梯度与卓越的收敛特性,已成为热门选择。 尽管这一趋势盛行,经典 ReLU 函数仍因其简洁性、固有稀疏性及…

在VSCode中开发一个uni-app项目

创建项目 使用命令行工具(例如 vue-cli)来创建一个新的 uni-app 项目。 创建以JavaScript开发的工程 npx degit dcloudio/uni-preset-vue#vite my-vue3-project //或者 npx degit dcloudio/uni-preset-vue#vite-alpha my-vue3-project创建以TypeScript…

Python - 爬虫;Scrapy框架之插件Extensions(四)

阅读本文前先参考 https://blog.csdn.net/MinggeQingchun/article/details/145904572 在 Scrapy 中,扩展(Extensions)是一种插件,允许你添加额外的功能到你的爬虫项目中。这些扩展可以在项目的不同阶段执行,比如启动…

Spark实战能力测评模拟题精析【模拟考】

1.println(Array(1,2,3,4,5).filter(_%20).toList() 输出结果是(B) A. 2 4 B. List(2,4) C. List(1,3,5) D. 1 3 5 2.println(Array("tom","team","pom") .filter(_.matches("")).toList) 输出结果为(List(tom,…

【OSG学习笔记】Day 15: 路径动画与相机漫游

本章来学习下漫游相机。 路径动画与相机漫游 本届内容比较简单,其实就是实现物体的运动和相机的运动 当然这两个要一起执行。 贝塞尔曲线 贝塞尔曲线(Bzier curve)是一种在计算机图形学、动画制作、工业设计等领域广泛应用的参数曲线&am…

PostgreSQL(PostGIS)触发器+坐标转换案例

需求,只录入一份坐标参考为4326的数据,但是发布的数据要求坐标必须是3857 对这种需求可以利用数据库触发器实现数据的同步 步骤: 1. 使用ArcGIS Pro创建一个名字为testfc_4326的图层,坐标参考为4326 2. 使用Pro再创建一个名字…

Constraints and Triggers

目录 Kinds of Constraints Single-Attribute Keys Multiattribute Key Foreign Keys Expressing Foreign Keys Enforcing Foreign-Key Constraints Actions Taken Attribute-Based Checks Timing of Checks Tuple-Based Checks Assertions Timing of Assertion Ch…

BERT:让AI真正“读懂”语言的革命

BERT:让AI真正“读懂”语言的革命 ——图解谷歌神作《BERT: Pre-training of Deep Bidirectional Transformers》 2018年,谷歌AI团队扔出一篇核弹级论文,引爆了整个NLP领域。这个叫BERT的模型在11项任务中屠榜,甚至超越人类表现…

冷雨泉教授团队:新型视觉驱动智能假肢手,拟人化抓握技术突破,助力截肢者重获生活自信

研究背景:日常生活中,健康人依靠手完成对物体的操作。对于手部截肢患者,手部的缺失导致他们难以有效地操作物体,进而影响正常的日常生活。拥有一个能够实现拟人地自然抓取多种日常物体的五指动力假手是手部截肢患者的夙愿&#xf…