iqr是什么意思统计学(统计学中的Inter)

一、iqr的简介

iqr,即四分位间距(Interquartile Range),是统计学中常用的一种数据变异性度量。它表示数据的分布范围,是指将数据从小到大排列后,第1/4和第3/4个数之间的差。iqr能够更好地衡量数据的分布情况和离散程度,相较于标准差,iqr更具有鲁棒性。

假设有一组数据 {2, 4, 5, 7, 9},则第1/4个数是3,第3/4个数是7。因此,该组数据的iqr为7-3=4。可以通过numpy库的percentile函数方便地计算出iqr:

import numpy as np

data = [2, 4, 5, 7, 9]
iqr = np.percentile(data, 75) - np.percentile(data, 25)
print(iqr)  # 输出4

二、iqr的应用

iqr作为一种数据变异性度量,能够在很多统计学应用中发挥重要作用。

1. 异常值检测

在数据预处理过程中,iqr能够帮助我们检测出异常值,使得数据更加可靠。

假设有一组数据 {58, 59, 60, 61, 62, 100},在查看最大值和最小值时,很容易被100这个异常值所干扰。此时,可以使用iqr检测异常值,如果数据点的值大于 Q3 + 1.5*iqr,或小于 Q1 – 1.5*iqr,则该数据点可以认为是异常值。

import numpy as np

data = [58, 59, 60, 61, 62, 100]
q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)
iqr = q3 - q1
left_bound = q1 - 1.5 * iqr
right_bound = q3 + 1.5 * iqr

for d in data:
    if d  right_bound:
        print(d)  # 输出100

2. 箱型图

箱型图是统计学中一种常见的图形表达方式,它包含了数据的中心位置、离散程度和异常值等信息。箱型图的上下边缘为上下四分位数(Q3,Q1),箱体内为中位数,上下边缘与箱体相连的直线为须线,符合条件的异常值则可以通过离群点的形式呈现。

可以使用matplotlib库的boxplot函数绘制箱型图,并使用whis参数指定须线长度和是否显示异常值。

import pandas as pd
import matplotlib.pyplot as plt

data = pd.Series([58, 59, 60, 61, 62, 100])
plt.boxplot(data, whis=1.5, showfliers=True)
plt.show()

三、iqr的优缺点

1. 优点

iqr相较于标准差,在面对非正态分布、有异常值等情况时拥有更好的鲁棒性。它不受样本量的影响,更适用于小样本或者极端大/小值存在的大样本。

2. 缺点

iqr作为一种数据变异性度量,其只关注数据集中的50%的数据,无法对整个数据分布进行精确描述。

除此之外,iqr也不能够进行代数运算,比如无法求出数据的平均值。

四、总结

作为一种数据变异性度量的iqr,在统计学应用中扮演着重要的角色。它不仅能够帮助我们检测异常值,还可以使用箱型图来更加直观地呈现数据的分布情况。在实际应用中,我们需要根据具体情况来选择适当的统计指标。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平