盒须图异常值的标准定义是超出范围的点, 在哪里和是第一个四分位数并且是数据的第三个四分位数。
这个定义的依据是什么?对于大量点,即使是完全正态分布也会返回异常值。
例如,假设您从以下序列开始:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
此序列创建 4000 个数据点的百分位排名。
测试qnorm
本系列的正态性导致:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
结果完全符合预期:正态分布的正态性是正态的。创建 aqqnorm(qnorm(xseq))
创建(如预期的那样)一条直线数据:
如果创建相同数据的箱线图,则boxplot(qnorm(xseq))
产生结果:
当样本量足够大时(如本例所示),箱线图与shapiro.test
、ad.test
或 不同,将多个qqnorm
点识别为异常值。