[SGG_AI]1.Python数据分析
1.数据分析概述与环境搭建1.1数据分析课程导论1.1.1为什么要学数据分析功能ExcelPython (Pandas)数据处理量1万行以内100万行以上自动化手动操作代码一键运行学习难度简单需基础编程知识传统方法用Excel手工处理数据问题数据量超过1万行会卡顿复杂计算需要写复杂公式举例统计全校1000名学生成绩排名手动操作需2小时Python数据分析优势自动处理百万级数据代码可重复使用举例用Pandas代码3分钟完成相同任务1.1.2学完能做什么常见应用场景销售分析哪些商品卖得最好用户行为分析用户最喜欢点击哪个功能金融预测股票价格趋势1.1.3数据分析的完整流程- 数据收集数据从哪里来公司数据库 | 公开数据集如政府数据 | 手动爬取- 数据清洗最重要典型问题缺失值如Excel里的空单元格错误数据如年龄填成200岁格式混乱日期写成“2023年1月1日”和“01/01/2023”混用维度典型问题数据层面缺失值、重复值、异常值、不一致编码、占位符误用内容层面逻辑矛盾、精度不合理、敏感数据未脱敏结构层面数据错位、合并单元格、宽表/长表错位、编码问题逻辑层面采样偏差、时间窗口问题、聚合与明细混用、血缘不清从数据层面、内容层面、结构层面、逻辑层面四个维度梳理数据清洗问题清单一、数据层面值本身的问题1. 重复数据表现完全相同的记录出现多次或者关键字段如身份证号、订单号重复但其他字段略有差异。影响统计时会导致计数翻倍、聚合结果失真。处理根据业务规则去重完全重复直接删部分重复需要判断保留哪一条。2. 异常值 / 离群值表现数值严重偏离正常范围。如“年龄200岁”还包括销售额为负数温度记录出现1000℃用户单日下单10000次处理结合业务阈值或统计方法如IQR、Z-score识别再决定是修正、剔除还是单独分析。3. 不一致的编码 / 取值表现同一个含义用了多种表达性别“男”“Male”“M”“1”混用城市“北京”“北京市”“BJ”状态“已完成”“完成”“finish”处理建立映射表统一标准化为规范取值。4. 默认值 / 占位符被误用表现用“9999”“-1”“null”“暂无”“/”等表示缺失但这些值在数值计算时会被当成真实数据。处理识别并统一转换为标准的缺失值标记如NaN。二、内容层面语义和准确性5. 逻辑矛盾表现字段之间自相矛盾。出生日期 “2020-01-01”注册时间 “2018-01-01”注册早于出生婚姻状态 “未婚”配偶姓名却非空商品类别 “生鲜”但保质期 3650天处理定义跨字段校验规则识别并标记矛盾记录。6. 不合理的精度表现数据粒度与需求不匹配。经纬度精确到小数点后15位实际设备精度仅到6位多余的是噪声金额记录为“12.3456789元”货币通常只需要2位小数处理根据业务场景舍入或截断。7. 敏感数据未脱敏表现明文存储的身份证号、手机号、银行卡号等。处理这不是“清洗”而是“安全处理”需要在分析前进行脱敏或权限控制。三、结构层面数据组织和格式8. 数据错位 / 错行表现常见于手工录入的Excel或PDF转换后的数据。本该在“姓名”列的值跑到了“年龄”列一条记录跨了多行导致行错位处理通过规则或人工识别重新对齐列结构。9. 合并单元格 / 分层表头表现Excel中常见的“多级表头”或“合并单元格”不适合直接导入数据库或分析工具。处理将多级表头拍平为单行字段名填充合并单元格产生的空值。10. 宽表与长表错位表现数据结构不符合分析需求。时间数据以列形式存储2023-01,2023-02… 作为字段名属性被拆成了多列属性1_名称、属性1_值、属性2_名称、属性2_值…处理根据分析目的进行pivot或unpivot转换。11. 编码问题表现中文显示为乱码天气、特殊符号无法解析。处理统一文件编码为UTF-8或在读取时指定正确编码。四、逻辑层面数据生成过程的问题12. 采样偏差 / 数据覆盖不全表现数据只覆盖了特定渠道、特定时间段或特定用户群但分析时被当作全量。处理这不一定是“清洗”能解决的但需要在数据准备阶段识别并记录作为后续分析的约束条件。13. 时间窗口问题表现数据时间戳混用了不同时区包含未来日期系统错误统计口径的时间定义不一致“自然日” vs “工作日”处理统一时区、校验时间范围合理性。14. 聚合与明细混用表现同一份数据中既有明细记录也有汇总行如“小计”“合计”行。处理识别并过滤掉汇总行避免重复计算。15. 数据血缘问题表现数据经过了多次加工但中间逻辑丢失导致清洗时不清楚某个字段的真实含义。处理这属于数据治理范畴需要追溯数据来源与业务方确认口径。- 数据分析常用方法统计平均值、最大值、比例分组对比如男vs女用户的消费差异一、按分析目的分类最常用的分类方式1. 描述性分析 —— “发生了什么”这是最基础的分析回答“过去发生了什么”。方法说明常见应用汇总统计均值、中位数、标准差、分位数等了解数据的基本分布频次分析各类别的计数、占比用户分布、销售构成趋势分析时间序列的走势、环比/同比销售趋势、流量变化对比分析横向对比不同群体、纵向对比不同时间A/B测试、竞品对比分组/聚合按维度分组后统计各地区的销售额、各渠道的用户数2. 诊断性分析 —— “为什么发生”在知道发生了什么之后进一步探究原因。方法说明常见应用下钻分析从粗粒度深入到细粒度总销售额下降 → 哪个品类/地区下降维度拆解按多个维度交叉分析定位问题按渠道×用户类型拆解转化率相关性分析计算变量间的相关关系广告投放与销售额的关系漏斗分析分析各环节的转化与流失用户注册流程、购买路径归因分析判断哪个因素对结果贡献最大营销渠道效果归因3. 预测性分析 —— “会发生什么”基于历史数据预测未来。方法说明常见应用时间序列预测ARIMA、Prophet、指数平滑等销量预测、流量预测回归分析线性回归、逻辑回归预测数值型目标、分类概率分类预测决策树、随机森林、XGBoost用户流失预测、风险识别聚类分析K-means、DBSCAN、层次聚类用户分群、市场细分4. 规范性分析 —— “应该怎么做”在预测的基础上给出行动建议。方法说明常见应用A/B测试对比不同方案的效果差异产品改版、运营策略验证优化算法线性规划、整数规划库存优化、排班调度模拟仿真Monte Carlo模拟、系统动力学风险评估、决策支持推荐算法协同过滤、矩阵分解个性化推荐二、按技术方法分类更偏技术视角1. 统计分析方法方法用途假设检验t检验、卡方检验、ANOVA判断差异是否显著相关与回归Pearson/Spearman相关、线性/逻辑回归方差分析多组均值比较主成分分析PCA降维、提取主要因子2. 机器学习方法类别常见算法应用场景监督学习-分类逻辑回归、决策树、随机森林、SVM、XGBoost用户流失、信用评分、图像识别监督学习-回归线性回归、岭回归、Lasso房价预测、销量预估无监督学习-聚类K-means、层次聚类、DBSCAN用户分群、异常检测无监督学习-关联Apriori、FP-Growth购物篮分析、关联推荐3. 时间序列分析方法方法特点移动平均/指数平滑基础平滑与预测ARIMA/SARIMA经典时间序列模型Prophet可处理节假日、缺失值易用LSTM深度学习时序模型适合复杂模式三、按业务场景分类实用导向业务领域常用分析方法用户增长漏斗分析、同期群分析、留存分析、渠道归因电商/零售购物篮分析、RFM模型、库存分析、价格弹性产品运营A/B测试、用户路径分析、功能使用分析金融风控信用评分卡、违约预测、异常交易检测市场营销用户分群、生命周期价值预测、营销响应模型四、一个完整的分析流程框架在实际工作中这四类分析通常是递进使用的描述性分析 → 诊断性分析 → 预测性分析 → 规范性分析 ↓ ↓ ↓ ↓ 发生了什么 为什么发生 会发生什么 应该怎么做举例用户流失分析场景描述本月流失率15%环比上升3个百分点诊断通过下钻发现主要是“新用户”和“某地区”流失率显著上升预测建立模型预测未来哪些用户有高流失风险规范对高流失风险用户制定干预策略并通过A/B测试验证效果五、如何选择合适的方法选择分析方法时可以考虑三个问题问题导向分析目标是什么是了解现状、找原因、做预测还是给建议数据条件如何样本量、字段丰富度、时间跨度业务场景是什么不同场景有成熟的“标配”方法如电商常用RFM漏斗- 数据可视化一图胜千言折线图趋势 | 柱状图对比 | 散点图相关性1.1.4数据分析工具链核心三件套工具作用类比说明Numpy高性能数值计算矩阵/向量数据的发动机Pandas表格数据处理类似高级Excel数据的手术刀Matplotlib数据可视化绘图库数据的翻译官典型工作流Numpy处理数字 → Pandas整理表格 → Matplotlib画图展示辅助工具Jupyter Notebook交互式编程环境实时显示代码和结果优势适合教学/探索性分析可保存图文混合笔记Anaconda一键安装所有工具的科学计算发行版包含Python解释器 常用库 环境管理工具Git代码版本控制避免分析脚本丢失协作必备记录每次修改支持多人合作1.2Anaconda安装1.2.1Anaconda介绍什么是AnacondaAnaconda官网地址https://www.anaconda.com/简单来说Anaconda Python 包和环境管理器Conda 常用库 集成工具。它适合那些需要快速搭建数据科学或机器学习开发环境的用户。Anaconda和Python相当于是汽车和发动机的关系安装Anaconda后就像买了一台车无需自己去安装发动机和其他零配件而Python作为发动机提供Anaconda工作所需的内核。Anaconda包及其依赖项和环境的管理工具为 conda 命令与传统的 Python pip 工具相比Anaconda的conda可以更方便地在不同环境之间进行切换环境管理较为简单。为什么选择 Anaconda方便安装 安装 Anaconda 就像安装一个应用程序一样简单它为您预先安装好了许多常用的工具无需单独配置。包管理器 Anaconda 包含一个名为 Conda 的包管理器用于安装、更新和管理软件包。Conda 不仅限于 Python还支持多种其他语言的包管理。环境管理 使用 Anaconda您可以轻松地创建和管理多个独立的 Python 环境比如可以安装 python2 和 python3 环境然后实现自由切换。这对于在不同项目中使用不同的库和工具版本非常有用以避免版本冲突。集成工具和库 Anaconda 捆绑了许多用于数据科学、机器学习和科学计算的重要工具和库如 NumPy、Pandas、Matplotlib、SciPy、Scikit-learn 等。Jupyter 笔记本 Jupyter 是一个交互式的计算环境支持多种编程语言但在 Anaconda 中主要用于 Python。它允许用户创建和共享包含实时代码、方程式、可视化和叙述文本的文档。Spyder 集成开发环境 Anaconda 中集成了 Spyder这是一个专为科学计算和数据分析而设计的开发环境具有代码编辑、调试和数据可视化等功能。跨平台性 Anaconda可在Windows、macOS和 Linux等操作系统上运行使其成为一个跨平台的解决方案。社区支持 Anaconda 拥有庞大的社区用户可以在社区论坛上获取帮助、分享经验和解决问题。核心优势解析预装200数据科学包开箱即用无需手动安装NumPy/Pandas等库完整生态包含数据分析、机器学习、可视化全套工具Anaconda一站式 vs 原生Pythonpip对比维度Anaconda方案原生Pythonpip方案安装难度⭐️ 一键安装所有工具⭐️⭐️⭐️ 需手动装每个库依赖管理Conda自动解决依赖冲突pip可能遇到版本兼容问题磁盘占用⚠️ 较大3GB基础包✅ 可按需安装最小仅几十MB适用场景初学者/快速开始数据分析开发者/需要精确控制环境典型案例学校教学/个人学习生产服务器部署1.2.2. 下载与安装进入官网点击右上角Free Download点击右下方Skip registration跳过注册点击Download下载或选择相应的操作系统和版本进行下载双击安装包进入安装点击Next点击I Agree点击Next修改安装路径点击Next酌情修改安装选项之后点击Install安装等待安装完成安装选项依次为创建快捷方式-默认选中。为Anaconda Navigator、Spyder、Jupyter Notebook和Anaconda Prompt软件包创建“开始”菜单快捷方式。将Anaconda3添加到我的PATH环境变量将包含conda二进制文件的路径添加到path环境变量中。Anaconda不建议选择此选项。conda二进制文件路径包含其他包二进制文件这些二进制文件将添加到path环境变量中即使当前没有处于活动状态的conda环境也是如此。这使得其他软件可以使用这些软件包文件这可能会导致错误。可以勾选也可以在安装后手动添加环境变量。注册Anaconda3作为我的默认Python 3.12-默认选中。将此安装中的Python包注册为VSCodePyCharm等程序的默认Python。安装完成后清除包缓存。安装完成后点击Next再次点击Next点击Finish完成安装1.3Jupyter笔记本Jupyter 是一个开源的交互式计算环境广泛应用于数据科学、机器学习、科学研究等领域主要组件有Jupyter Notebook和Jupyter Lab。JupyterLab作为Jupyter Notebook 的继承者提供了更现代化和功能丰富的界面。JupyterLab的多文档界面、内置协作功能和扩展系统使其成为数据科学家和研究人员的首选。1.3.1使用本地Jupyter命令提示符中输入jupyter lab或jupyter notebook会弹出浏览器页面直接进入主页面C:\Users\fuxiaofengjupyter lab注意由于网络等原因可能导致访问时候出现警告可以忽略。1.3.2PyCharm中集成JupyterPycharm界面提供了对Jupyter Notebook的集成创建Jupyter Notebook文件会在当前项目下创建新的conda环境新的conda环境中没有Jupyter如果运行的话会自动在当前环境下安装。1.3.3Jupyter快捷键esc从输入模式退出到命令模式a在当前cell上面创建一个新的cellb在当前cell 下面创建一个新的celldd删除当前cellm切换到markdown模式y切换到code模式ctrl回车运行cellshift 回车运行当前cell并创建一个新的cell1.4章节小结知识总结核心三件套NumPy快速计算数字如矩阵运算Pandas处理表格数据类似高级ExcelMatplotlib画图工具完整流程比喻NumPy 切菜准备好数据比如切好“销售额”和“成本”数组。Pandas 炒菜计算利润销售额 - 成本分析哪些产品赚钱。可视化 摆盘用柱状图展示利润最高的产品秒懂2.Numpy科学计算3.Pandas数据分析4.数据可视化5.房地产市场洞察与价值评估
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2448090.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!