IQR四分位数法是什么?
一、核心概念四分位数与IQR1. 四分位数Quartiles将一组有序数据从小到大排列划分为4个相等部分的三个关键分割点分别记为Q1第一四分位数25%分位数数据中25%的数值小于或等于它即第25百分位数。Q2第二四分位数中位数数据中50%的数值小于或等于它即第50百分位数Median。Q3第三四分位数75%分位数数据中75%的数值小于或等于它即第75百分位数。例如数据集 [1, 3, 5, 7, 9, 11, 13] 的中位数是7Q2前半部分 [1,3,5] 的中位数是3Q1后半部分 [9,11,13] 的中位数是11Q3。2. IQR四分位距IQR Q3 - Q1表示中间50%数据的分布范围即数据在Q1到Q3之间的“宽度”。它是衡量数据离散程度的稳健指标不受极端值影响。二、IQR四分位数法的核心作用识别异常值IQR法最常用的是通过“箱线图Box Plot”或“Tukey’s Fences”规则识别异常值Outliers。具体步骤如下1. 计算上下边界以IQR为基准定义数据的“正常范围”下边界Lower BoundQ1 - 1.5×IQR上边界Upper BoundQ3 1.5×IQR2. 判定异常值温和异常值Mild Outliers小于下边界或大于上边界的数据点通常用1.5×IQR界定。极端异常值Extreme Outliers小于Q1 - 3×IQR 或大于Q3 3×IQR 的数据点更严格的阈值。逻辑正常数据应集中在中间50%Q1到Q3而超出1.5倍IQR的点被视为“偏离较远的异常”。1.5倍的选择是经验性的基于正态分布假设下约覆盖99.3%的数据剩余0.7%视为异常。三、应用场景数据清洗识别并验证离群点如传感器误差、输入错误。可视化分析箱线图的核心组件箱体表示Q1到Q3触须延伸至非异常值的最远点异常值单独标记。统计描述替代标准差SD衡量离散程度尤其当数据非正态时IQR更稳健。四、如何理解IQR法的优势与局限优势稳健性仅依赖中间50%的数据不受极端值干扰标准差易受异常值影响。普适性适用于任何分布无需假设数据正态。直观性通过四分位数直接反映数据的集中与分散趋势。局限主观性1.5倍IQR是经验阈值不同领域可能调整如金融风控可能用3倍。小样本偏差样本量过小时如n10四分位数估计可能不稳定。无法反映分布形态仅描述离散程度不体现数据的对称性或峰度。五、示例说明假设数据集[12, 15, 17, 19, 20, 22, 24, 28, 30, 35, 40, 100]已排序。计算四分位数n12中位数Q2是第6和第7个数的平均(2224)/223。Q1是前6个数的中位数(1719)/218前6数12,15,17,19,20,22。Q3是后6个数的中位数(3035)/232.5后6数24,28,30,35,40,100。计算IQRIQRQ3-Q132.5-1814.5。确定边界下边界18 - 1.5×14.518-21.75-3.75上边界32.5 1.5×14.532.521.7554.25识别异常值数据中10054.25因此100是异常值其他数据点均在[-3.75, 54.25]范围内。总结IQR四分位数法通过“中间50%数据的范围”IQR量化离散程度并通过1.5倍IQR的边界识别异常值。它的
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2473204.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!