【箱线图详解】
文章目录一. 什么是箱线图二. 箱线图详解2.1 下界2.2 下四分位数Q125%分位数2.3 中位数Q250%分位数2.4 上四分位数Q375%分位数2.5 上界三. 两个关键概念3.1 四分位区间IQR3.2 异常值Outliers四. 箱线图在功率预测中的应用4.1 场景 1原始功率数据清洗一. 什么是箱线图箱线图顾名思义就是由“箱子”和“须线”组成的图表核心作用是用最简单的图形展示数据的关键统计特征尤其适合呈现未分组的原始数据分布情况。二. 箱线图详解2.1 下界对应箱线图最下方的须线端点是排除异常值后数据集中最小的有效数据点。通常对应 Q1 - 1.5×IQRIQR为四分位间距不是整个数据集的绝对最小值下方须线就是从这个端点延伸至箱体下沿。2.2 下四分位数Q125%分位数对应箱体的下沿图形中箱体的最下方横线将数据按升序排列后位于25%位置的值——也就是说有25%的数据小于这个值75%的数据大于这个值是箱体的“底部边界”。2.3 中位数Q250%分位数对应箱体内部的那条横线是数据排序后的中间值。如果数据个数是奇数就是中间那个数如果是偶数就是中间两个数的平均值。它比平均值更靠谱受极端值影响极小能真实反映数据的“中心水平”也是图形中最能体现数据集中趋势的部分。2.4 上四分位数Q375%分位数对应箱体的上沿图形中箱体的最上方横线位于数据75%位置的值有75%的数据小于这个值25%的数据大于这个值是箱体的“顶部边界”。2.5 上界对应箱线图最上方的须线端点是排除异常值后数据集中最大的有效数据点。通常对应 Q3 1.5×IQR同样不是整个数据集的绝对最大值上方须线就是从这个端点延伸至箱体上沿。三. 两个关键概念3.1 四分位区间IQRQ3 - Q1也就是箱体的高度它代表了数据中间50%的离散程度——箱体越窄说明这50%的数据越集中箱体越宽说明数据波动越大。3.2 异常值Outliers对应箱线图须线外部的零散圆点或菱形是超出上界、下界范围的独立数据点。判断标准很简单小于 Q1 - 1.5×IQR 或大于 Q3 1.5×IQR 的数据都属于异常值这些数据往往是我们需要重点关注的“特殊情况”在图形中会单独脱离须线呈现一眼就能区分。参考链接https://www.bilibili.com/video/BV1QuByBBE2i/?spm_id_from333.337.search-card.all.clickvd_sourcecf0b4c9c919d381324e8f3466e714d7a四. 箱线图在功率预测中的应用4.1 场景 1原始功率数据清洗以「风速区间」为横轴「风机实际功率」为纵轴绘制箱线图切入风速 - 额定风速区间内箱线图须线下方的异常点对应风速正常但功率异常偏低的限电 / 设备故障数据超出切出风速后箱线图须线上方的异常点对应切出风速下仍有出力的错误数据。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2501997.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!