09 数据预处理-缺失值处理

news2026/4/29 13:50:29
Python 数据分析入门一文搞懂缺失值处理附 Pandas 实战适合人群Python 初学者 / 数据分析入门 / 数据预处理学习者 / 教学案例分享在做数据分析时很多人第一步就想直接建模、直接出图、直接分析结果。但现实情况往往是数据根本没那么“干净”。你可能会遇到这些问题某些学生没有录入平时成绩某些考勤记录是空的某些字段一整列都有缺失数据表看起来完整实际上很多关键值都没填这类问题有一个统一的名字缺失值Missing Data本文将通过一个非常贴近教学场景的案例——学生成绩与考勤数据分析带你从 0 到 1 学会什么是缺失值为什么缺失值不能忽视缺失值常见处理方式有哪些如何使用Pandas检测、统计、删除和填充缺失值一、案例引入学生数据为什么不能直接分析假设我们拿到一张“学生成绩与考勤表”数据如下importpandasaspdimportnumpyasnp dfpd.DataFrame({姓名:[张三,李四,王五,赵六,钱七],平时成绩:[85,90,np.nan,78,88],期末成绩:[92,np.nan,76,80,91],考勤次数:[20,18,19,np.nan,20],是否补考:[否,否,是,否,np.nan]})print(df)输出结果如下姓名 平时成绩 期末成绩 考勤次数 是否补考0张三85.092.020.0否1李四90.0NaN18.0否2王五 NaN76.019.0是3赵六78.080.0NaN 否4钱七88.091.020.0NaN这时候你会发现王五没有平时成绩李四没有期末成绩赵六没有考勤次数钱七没有“是否补考”信息问题来了这些空值要不要管可以直接删掉吗能不能补上用什么方法补最合理这就是缺失值处理要解决的问题。二、什么是缺失值缺失值就是数据中本来应该有值但实际上没有记录下来的部分。比如成绩没录入信息没填写设备采集失败数据传输丢失因与其他数据不一致而被删除在真实数据中缺失值是非常常见的。现实世界中的原始数据往往是不完整的还可能同时存在噪声和不一致问题 [2]。三、为什么缺失值不能直接忽略很多初学者看到空值第一反应是“先不管后面再说。”但这样做通常会出问题。1影响统计结果比如你计算平均分时如果数据里有缺失值结果可能不准确或者根本算不出来。2影响建模效果很多机器学习算法不能直接处理缺失值遇到空值会报错。3影响业务判断如果某个学生没有期末成绩你直接把他算进整体分析结论可能失真。所以做数据分析之前先处理缺失值几乎是必经步骤。四、缺失值常见处理方法有哪些在实际分析中缺失值并不是只有一种处理方式。常见方法包括 [2]忽略元组人工填写缺失值使用一个全局常量填充缺失值使用属性的中心度量如均值或中位数填充使用与给定元组同一类样本的均值或中位数填充使用最可能的值填充下面我们用更好理解的话解释一下。1删除缺失值所在记录如果某一行数据缺失太多而且这条记录本身价值不大可以直接删除。例如某条学生记录大部分字段都是空的某条记录关键字段缺失无法补全优点简单直接缺点可能丢失信息数据量本来就不大时不建议大量删除2使用固定值填充比如把空值统一填成0“未知”“未填写”适合类别型字段需要明确标记“缺失”状态的场景例如是否补考未知3使用均值或中位数填充这是最常见的一类方法尤其适合数值型数据。例如平时成绩缺失可以用全班平均成绩填补如果数据有异常值优先考虑中位数适合数值型字段整体分布相对稳定的数据4按类别分组后填充比如同一个班级的学生使用本班平均分填补同一个专业的学生使用本专业平均值填补这种方法通常比“全局平均值”更合理因为它考虑了群体差异 [2]。5使用最可能值填充这种方式一般更偏机器学习例如根据其他字段推断最可能的值。对于初学者来说可以先理解为不是随便补而是根据已有信息做“更合理的估计”。五、Pandas 中怎么检测缺失值在Pandas里最常用的缺失值检测方法就是df.isnull()它会返回一个布尔表True表示缺失False表示不缺失示例代码print(df.isnull())如果你只想统计每一列缺了多少个值可以这样写print(df.isnull().sum())输出结果会更直观例如姓名0平时成绩1期末成绩1考勤次数1是否补考1dtype:int64这一步非常重要因为你要先知道缺失值在哪些列缺了多少严不严重六、快速查看数据整体情况info()很常用除了isnull()还有一个非常高频的方法df.info()它可以帮助你快速看到总行数各列非空数量数据类型这在做数据预处理时特别实用因为它能让你快速判断哪些列缺失严重哪些列是数值型哪些列是类别型示例代码print(df.info())七、如何删除缺失值如果某些记录缺失严重或者你判断这条记录没有保留价值可以使用df.dropna()示例1删除包含缺失值的整行df_dropdf.dropna()print(df_drop)这种写法会把只要有空值的行全部删除。示例2只删除某些关键字段为空的记录比如我们认为“期末成绩”非常关键缺了就没法分析df_drop_scoredf.dropna(subset[期末成绩])print(df_drop_score)这种方式比“全删”更灵活也更符合实际业务。八、如何填充缺失值如果不适合删除就可以考虑填充。Pandas中最常用的方法是df.fillna()1用固定值填充比如把“是否补考”的空值补成“未知”df[是否补考]df[是否补考].fillna(未知)2用均值填充比如“平时成绩”缺了可以用这一列均值补df[平时成绩]df[平时成绩].fillna(df[平时成绩].mean())3用中位数填充如果担心极端值影响就可以用中位数df[期末成绩]df[期末成绩].fillna(df[期末成绩].median())4用众数填充类别型字段常常使用众数填充df[是否补考]df[是否补考].fillna(df[是否补考].mode()[0])九、完整代码缺失值检测 删除 填充下面给出一份完整代码复制即可运行。importpandasaspdimportnumpyasnp# 1. 构造数据dfpd.DataFrame({姓名:[张三,李四,王五,赵六,钱七],平时成绩:[85,90,np.nan,78,88],期末成绩:[92,np.nan,76,80,91],考勤次数:[20,18,19,np.nan,20],是否补考:[否,否,是,否,np.nan]})print( 原始数据 )print(df)# 2. 检测缺失值print(\n 缺失值布尔表 )print(df.isnull())print(\n 各列缺失值统计 )print(df.isnull().sum())print(\n 数据整体信息 )print(df.info())# 3. 删除缺失值示例print(\n 删除所有含缺失值的记录 )print(df.dropna())# 4. 填充缺失值df_filleddf.copy()# 数值型均值 / 中位数填充df_filled[平时成绩]df_filled[平时成绩].fillna(df_filled[平时成绩].mean())df_filled[期末成绩]df_filled[期末成绩].fillna(df_filled[期末成绩].median())df_filled[考勤次数]df_filled[考勤次数].fillna(df_filled[考勤次数].mean())# 类别型固定值填充df_filled[是否补考]df_filled[是否补考].fillna(未知)print(\n 填充后的数据 )print(df_filled)十、实际处理时怎么选方法这个问题非常关键。因为缺失值处理不是机械操作不是所有空值都“直接删掉”或者“统一填 0”。一个简单判断思路情况1缺失比例很少且记录不重要可以考虑删除。情况2数值型字段缺失优先考虑均值中位数情况3类别型字段缺失优先考虑众数“未知”“未填写”情况4数据和业务关系明显优先考虑按类别分组填充而不是全局统一填充。比如按班级按专业按课程类型十一、最容易踩的坑坑1一看到空值就全部删除这很常见但不一定合理。如果数据量本来就不大删除太多会导致样本严重减少。坑2所有缺失值都用 0 填这通常不推荐。因为 0 不一定代表“没有”有时它会引入新的误差。坑3数值型和类别型字段用同一种方式处理这是不对的。数值型更适合均值 / 中位数类别型更适合众数 / 固定标签坑4只会处理不会解释数据预处理不仅是“把代码跑通”还要能解释为什么这样填为什么这条删掉这种处理会不会影响结果这才是真正的数据分析思维。十二、这部分知识在后续学习中有什么用缺失值处理是数据预处理最基础的一步。现实数据通常并不完整还可能同时存在噪声、不一致等问题 [2]。它在后续这些任务里都会用到数据清洗数据集成特征工程建模前处理数据可视化机器学习训练也就是说如果不会处理缺失值后面的数据分析基本走不下去。十三、给初学者的一个记忆口诀这部分你可以先记住这 4 句话先检查再处理不要一上来就删数据。数值型缺失常用均值或中位数填充。类别型缺失常用众数或“未知”填充。缺失值处理要结合业务场景不是机械套模板。十四、课后练习适合课堂 / 自学练习 1基础题已知一张学生数据表dfpd.DataFrame({姓名:[A,B,C,D],成绩:[80,None,90,85],考勤:[20,18,None,19]})请完成检测缺失值统计每列缺失值数量用均值填充“成绩”用均值填充“考勤”练习 2提高题已知数据dfpd.DataFrame({姓名:[A,B,C,D],成绩:[80,None,90,85],是否补考:[否,None,是,否]})请思考“成绩”适合用什么方法填“是否补考”适合用什么方法填能否把两个字段都统一填成 0为什么练习 3迁移题请把“学生成绩与考勤数据”换成你熟悉的业务场景例如某店铺订单数据某班学生上机记录某宿舍用电数据要求用isnull()检查缺失值用info()查看数据概况选择合适的方法处理缺失值说明你的处理理由十五、总结这篇文章主要解决了一个非常实际的问题数据里有空值时到底该怎么办我们通过“学生成绩与考勤数据”这个案例学习了什么是缺失值为什么缺失值不能忽略常见缺失值处理方法如何使用Pandas检测、统计、删除和填充缺失值其中最核心的思想是先发现问题再选择方法最后结合业务解释处理结果对于数据分析初学者来说这是最基础、也是最实用的一步。十六、写在最后如果这篇文章对你有帮助欢迎点赞、收藏、评论支持一下。如果你也在学习 Python 数据分析建议把isnull()、sum()、info()、dropna()、fillna()这几个方法先练熟它们在数据预处理中真的非常常用。你在学习缺失值处理时最容易纠结的是“该删还是该填”吗欢迎在评论区交流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2416318.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…