我想知道是否有适用于泊松分布数据(或可能其他分布)的箱线图变体?
对于高斯分布,胡须放置在 L = Q1 - 1.5 IQR 和 U = Q3 + 1.5 IQR,箱线图具有以下特性:低异常值(L 以下的点)与高异常值(U 以上的点)大致相同)。
但是,如果数据是泊松分布的,则由于我们得到Pr(X<L) < Pr(X>U)的正偏度,这不再成立。是否有另一种方法来放置胡须,使其“适合”泊松分布?
我想知道是否有适用于泊松分布数据(或可能其他分布)的箱线图变体?
对于高斯分布,胡须放置在 L = Q1 - 1.5 IQR 和 U = Q3 + 1.5 IQR,箱线图具有以下特性:低异常值(L 以下的点)与高异常值(U 以上的点)大致相同)。
但是,如果数据是泊松分布的,则由于我们得到Pr(X<L) < Pr(X>U)的正偏度,这不再成立。是否有另一种方法来放置胡须,使其“适合”泊松分布?
箱线图并非旨在确保在所有情况下超出胡须末端的可能性较低:它们旨在并且通常用作数据集主体的简单图形表征。因此,即使数据具有非常偏斜的分布,它们也很好(尽管它们可能不会像关于近似无偏斜的分布那样揭示那么多的信息)。
当箱线图偏斜时,就像泊松分布一样,下一步是重新表达基础变量(使用单调递增的变换)并重新绘制箱线图。因为泊松分布的方差与其均值成正比,所以使用平方根是一个很好的变换。
每个箱线图描绘了具有给定强度的泊松分布的 50 个 iid 绘制(从 1 到 10,每个强度进行两次试验)。请注意,偏度往往很低。
平方根尺度上的相同数据往往具有稍微对称的箱线图,并且(除了最低强度)无论强度如何,IQR 都大致相等)。
总之,不要改变箱线图算法:而是重新表达数据。
顺便说一下,计算的相关机会是:独立正态变量的机会是多少将超过上(下)栅栏 () 估计自从同一分布中独立抽取? 这解释了箱线图中的栅栏不是根据基础分布计算的,而是根据数据估计的事实。在大多数情况下,机会远大于 1%!例如,这里(基于 10,000 次蒙特卡洛试验)是该案例的对数(以 10 为底)机会的直方图:
(因为正态分布是对称的,所以此直方图适用于两个围栏。)1%/2 的对数约为 -2.3。显然,大多数时候概率大于这个。大约有 16% 的时间超过 10%!
事实证明(我不会用细节来混淆这个回复)这些机会的分布与正常情况相当(对于小) 即使对于强度低至 1 的泊松分布,这是相当偏斜的。主要区别在于它通常不太可能找到低异常值,而更有可能找到高异常值。
我知道有一个标准箱线图的概括,其中调整了晶须的长度以考虑倾斜数据。详细信息在非常清晰简洁的白皮书中得到了更好的解释(Vandervieren, E., Hubert, M. (2004) “Anadjusted boxplot for skewed distributions”, 请参见此处)。
有一个实现()以及一个 matlab 实现(在一个名为的库中)。
我个人认为它是数据转换的更好替代方案(尽管它也基于临时规则,请参阅白皮书)。
顺便说一句,我发现我有一些东西要添加到 whuber 的示例中。就我们讨论胡须的行为而言,我们真的应该考虑在考虑受污染的数据时会发生什么:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
在这个污染模型中,B1 基本上是一个对数正态分布,除了 20% 的数据是一半左一半右的异常值(adjbox 的分解点与常规箱线图的分解点相同,即它假设最多25% 的数据可能是坏的)。
这些图描绘了转换数据的经典箱线图(使用平方根转换)
以及未转换数据的调整后的箱线图。
与调整后的箱线图相比,前一个选项掩盖了真正的异常值并将好的数据标记为异常值。一般来说,它将通过将违规点分类为异常值来隐藏数据中任何不对称的证据。
在此示例中,对数据的平方根使用标准箱线图的方法发现 13 个异常值(全部在右侧),而调整后的箱线图发现 10 个右侧和 14 个左侧异常值。
在“经典”箱线图中,晶须放置在:
-1.5*IQR 和 +1.5*IQR
其中 IQR 是分位数间距,是第 25 个百分位数,是数据的第 75 个百分位数。经验法则是将栅栏外的所有内容都视为可疑数据(栅栏是两条胡须之间的间隔)。
这个经验法则是特设的:理由是如果数据的未污染部分近似为高斯分布,则使用此规则将不到 1% 的好数据归类为坏数据。
正如 OP 所指出的,这个栅栏规则的一个弱点是两个胡须的长度是相同的,这意味着栅栏规则只有在数据的未污染部分具有对称分布时才有意义。
一种流行的方法是保留围栏规则并调整数据。这个想法是使用一些偏斜校正单调变换(平方根或对数或更一般的box-cox变换)来变换数据。这是一种有点混乱的方法:它依赖于循环逻辑(应该选择转换以纠正数据中未受污染部分的偏斜,这在此阶段是不可观察的)并且倾向于使数据更难解释视觉上。无论如何,这仍然是一个奇怪的过程,其中一个人更改数据以保留毕竟是临时规则的内容。
另一种方法是保持数据不变并更改须规则。调整后的箱线图允许每个晶须的长度根据测量数据未污染部分偏度的指标而变化:
- 1.5*IQR 和 + 1.5*IQR
其中是数据未受污染部分的偏度指数(即,正如中位数是数据未受污染部分的位置度量或 MAD 是数据未受污染部分的分布度量)和是选择的数字,使得对于未受污染的偏态分布,在大量偏态分布的集合中,位于栅栏外的概率相对较小(这是栅栏规则的临时部分)。
对于数据的好部分是对称的情况,,我们回到经典的胡须。
作者建议使用 med-pair 作为的估计量(参见白皮书内的参考资料),因为它的效率很高(尽管原则上可以使用任何稳健的偏斜指数)。通过选择 ,他们根据经验(使用大量偏斜分布)计算出最优的和
- 1.5*IQR 和 + 1.5*IQR,如果
- 1.5*IQR 和 + 1.5*IQR,如果