数据预处理和超范围值处理步骤 18
1 .数据预处理实验1导入数据操作步骤① 从“源”面板拖入“Excel”节点。② 双击节点选择待处理的数据文件。③ 从“输出”面板拖入“表格”节点连接至“Excel”节点右键运行查看原始数据。为什么要做这一步原始数据通常保存在外部文件中必须将其读入 SPSS Modeler 才能进行后续处理。通过“表格”节点快速预览可以初步了解数据的字段构成、记录数量以及是否存在明显异常。原表格如下2数据审核操作步骤① 从“源”面板拖入“数据审核”节点。② 将“Excel”节点的输出连接到“数据审核”节点。③ 运行该节点查看生成的数据质量报告。为什么要做这一步数据审核能够自动评估每个字段的完整性、分布特征和异常情况帮助用户快速定位需要清洗的问题字段。这是数据预处理中至关重要的一步可以避免盲目处理。数据审核图如下3处理无效值操作步骤① 在“类型”节点中针对sectionID和topic字段点击“值”按钮。② 查看已有的取值列表勾选那些空的值。③ 点击红叉图标丢弃并将“检查值”选项改为“丢弃”。④ 运行“表格”节点对比处理前后的数据记录。处理后的图如下为什么要做这一步无效值会污染数据集若保留可能导致统计偏差或模型错误。将其丢弃是最直接、保守的清洗方式适合无效记录占比较小的情况。丢弃后的分析处理完成后重新运行“数据审核”节点可以看到该字段的有效记录数减少。在后续的表格输出中不再出现乱码或非法取值字段分布更加干净。2 .超出范围值处理1设置连续字段的上限操作步骤① 在“类型”节点中选中一个连续型字段例如“announcement 公告浏览时长”或“discussion 讨论区发言次数”。② 在“值”区域勾选“范围检查”设定上限为 100。③ 将“检查值”选项改为“丢弃”。④ 运行“表格”节点观察处理后的数据。为什么要做这一步学习行为数据中可能出现极端异常值这些值会严重拉高均值、扩大标准差掩盖真实的数据分布。设定合理的范围并丢弃超出值可以还原数据的真实规律。2处理 announcement 字段的效果分析丢弃前可能包含若干大于 100 的记录导致该字段的均值偏高、标准差很大直方图呈现长尾分布。丢弃后所有记录的取值均落在100范围内。均值下降至更合理的水平标准差缩小。3处理 discussion 字段的效果分析丢弃前讨论区发言次数可能因刷帖行为出现几百甚至上千的异常值使得大部分正常用户的贡献被淹没。丢弃后超出 100 的记录被移除保留了绝大多数正常用户的行为。该字段的中位数和众数更能代表典型学生的参与度。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2539109.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!