盒须图定义异常值的基础是什么?

机器算法验证 异常值 正态假设 QQ图 箱形图
2022-02-11 19:43:58

盒须图异常值的标准定义是超出范围的点{Q11.5IQR,Q3+1.5IQR}, 在哪里IQR=Q3Q1Q1是第一个四分位数并且Q3是数据的第三个四分位数。

这个定义的依据是什么?对于大量点,即使是完全正态分布也会返回异常值。

例如,假设您从以下序列开始:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

此序列创建 4000 个数据点的百分位排名。

测试qnorm本系列的正态性导致:

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

结果完全符合预期:正态分布的正态性是正态的。创建 aqqnorm(qnorm(xseq))创建(如预期的那样)一条直线数据:

qqnorm 数据图

如果创建相同数据的箱线图,则boxplot(qnorm(xseq))产生结果:

数据箱线图

当样本量足够大时(如本例所示),箱线图与shapiro.testad.test或 不同,将多个qqnorm点识别为异常值。

4个回答

箱线图

这是Hoaglin、Moseller 和 Tukey (2000) 的相关部分:了解稳健和探索性数据分析。威利第 3 章,“箱线图和批量比较”,由 John D. Emerson 和 Judith Strenio 撰写(从第 62 页开始):

[...] 我们将异常值定义为小于 FL32dF或大于FU+32dF有点武断,但对许多数据集的经验表明,该定义在识别可能需要特别注意的值方面非常有用。[...]

FLFU表示第一和第三四分位数,而dF是四分位数范围(即FUFL)。

他们继续向高斯群体展示应用程序(第 63 页):

考虑标准高斯分布,均值0和方差 1. 我们寻找类似于箱线图中使用的样本值的该分布的总体值。对于对称分布,中位数等于均值,因此标准高斯分布的总体中位数为0. 人口四分之二是 0.67450.6745,所以人口四次传播是1.349,或大约43. 因此32第四次点差的倍数是 2.0235(关于2)。人口异常值截止值为±2.698 (关于223),它们包含99.3%的分布。[...]

所以

[他们]表明,如果将截止值应用于高斯分布,那么0.7%的人口在异常值截止值之外;该图提供了一个比较标准,用于判断异常值截止点的位置[...]。

此外,他们写

[...] 因此,我们可以通过有多少点超出异常值截止点来判断我们的数据是否看起来比高斯重尾。[...]

他们提供了一个表格,其中包含超出异常值截止值的预期值比例(标记为“Total % Out”):

表 3-2

因此,这些截止值从未打算成为关于哪些数据点是异常值或不是异常值的严格规则。正如您所指出的,即使是完美的正态分布也有望在箱线图中显示“异常值”。


异常值

据我所知,离群值没有普遍接受的定义。我喜欢霍金斯(1980)的定义:

异常值是与其他观察结果有很大差异的观察结果,以致引起人们怀疑它是由不同机制产生的。

理想情况下,只有在了解为什么它们不属于其余数据时,您才应该将数据点视为异常值。一个简单的规则是不够的。Aggarwal (2013) 对异常值进行了很好的处理。

参考

Aggarwal CC (2013):异常值分析。施普林格。
Hawkins D (1980):异常值的识别。查普曼和霍尔。
Hoaglin、Moseller 和 Tukey (2000):了解稳健和探索性数据分析。威利。

“异常值”一词通常被认为是指“错误、误导、错误或损坏的数据值,因此应该从分析中省略”,但这不是 Tukey 使用异常值的意思。异常值只是距离数据集的中位数很远的点。

您关于在许多数据集中期待异常值的观点是正确且重要的。关于这个话题有很多很好的问题和答案。

从非对称数据中去除异常值

识别和删除异常值是否合适,因为它们会导致问题?

与所有异常值检测方法一样,必须小心谨慎地确定哪些值是真正的异常值。我认为箱线图只是提供了数据传播的良好可视化,任何真正的异常值都很容易捕捉。

我认为如果您没有将一些异常值作为正态分布的一部分,您应该担心,否则您可能应该寻找没有任何异常值的原因。显然,应该对它们进行审查,以确保它们没有记录错误,否则它们是可以预料的。