个人主页:在线OJ的阿川
大佬的支持和鼓励,将是我成长路上最大的动力 
阿川水平有限,如有错误,欢迎大佬指正 
 

前面的博客
数据分析—技术栈和开发环境搭建
数据分析—Numpy和Pandas库基本用法及实例
Python初阶
Python–语言基础与由来介绍
Python–注意事项
Python–语句与众所周知
相信看完,您会有所了解
这是个目录
- 数据分析流程
 - 详细化
 - 获取数据
 - 数据格式
 
- 评估数据
 - 数据错误类型
 - 如何进行评估
 
数据分析流程
流程:
- 获取数据
 - 读取数据
 - 评估数据
 - 清洗数据
 - 整理数据
 - 分析数据
 - 可视化数据
 
详细化
获取数据
常见两种方式
- 公开数据集平台 
  
- 飞桨
 - 天池
 - 和鲸社区
 
 - 自己获取 
  
- 公开API
 - 爬虫

 
 
数据格式
让人喜欢的数据格式
- json(编程人员喜欢的格式) 
  
-  
对象
 -  
数组
-  
对象和数组中的数据,通过解析加转换可以变成Python数据
 -  
读取json格式文件实例(read_json):
 

 -  
 
 -  
 - scv(分析师喜欢的格式) 
  
- 体积小
 - 结构工整
 - 容易让人理解
 
 - 读取csv格式文件实例(csv) 
  
- 实例目录 
    
- read_csv 读取csv格式文件
 - index_col 指定标签索引
 - header 指定列标签
 - set_option 展示更多想要的内容
 - info 展示概况信息
 - describe 展示统计学信息
 
 
 - 实例目录 
    
 

 
 
 
评估数据
数据错误类型
数据错误主要分为
-  
结构类
- 乱数据
 - 整洁数据 
    
- 每列是一个变量
 - 每行是一个观察值
 - 每个单元格是个一个值

 
 
 -  
内容类
- 脏数据 
    
- 丢失数据
 - 重复数据
 - 不一致数据
 - 无效/错误数据
 
 - 干净数据
 
 - 脏数据 
    
 
如何进行评估
针对结构类
- .head 看前几行
 - .tail 看后几行
 - .sample 随机几行

 - 针对内容类
 
-  
评估缺失值
-  
info 可查看一些概况
 -  
isnull 查看缺失值
- 搭配sum 可得缺失值的个数
 

 
 -  
 -  
评估重复值
 
- duplicated 一个值第1次出现为false,第2次出现为true 
  
- 参数subset 指定列条件

 
 - 参数subset 指定列条件
 
-  
评估不一致数据
value_counts 查看类型

 -  
评估无效/错误数据
-  
用两种方法来尝试
- sort_values 看是否有值明显错误的数据
 - descripbe 看是否有值明显错误的数据
 
 
 -  
 

好的,到此为止啦,祝您变得更强

| 道阻且长 行则将至 | 
|---|
个人主页:在线OJ的阿川
大佬的支持和鼓励,将是我成长路上最大的动力 



















