从箱线图中推断方差

机器算法验证 方差 箱形图
2022-03-07 00:39:59

我想知道如何使用箱线图推断变量的方差。观察它们的箱线图是否至少可以推断出两个变量是否具有相同的方差?

3个回答

不是没有很多严格的假设,没有。如果你假设答案是肯定的(而不是问,我为你鼓掌),我敢打赌我可以用这个(反)例子来欺骗你:

set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))

看起来很相似,对吧?然而σ12=1,σ22=1.96

如果从代码中不清楚,人口2是:

-3.000 -2.650 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348 -1.348 -0.674  0.000
 0.674  1.348 -1.348 -0.674  0.000  0.674  1.348  2.650  3.000

不,你不能仅仅因为它完全对称就推断出这个人口是正常的。这是人口的QQ图2

在我看来当然不正常。

编辑 - 回复您的评论:

方差是一个数字统计量。如果两个分布的方差实际上是相等的,那么这几乎就是您要说的所有内容。如果两个分布完全是正态分布,那么它们都会有一个数学定义。如果两个分布不完全正态或方差不相等,则不应另说。如果您想说它们大致相等或正常,您可能应该以适合您的目的的方式定义“足够近似”,您没有在此处指定。在通常激发像您这样的问题的分析中,对分布差异的敏感性差异很大。例如,t在给定相同样本量的情况下,它对于违反后者相当稳健),所以我不建议使用该测试来比较我的人口2与人口1(正态分布)。

这已经得到很好的回答。这些额外的评论有点太长了(更新:现在太长了)不能作为评论。

严格来说,您可以从箱线图中读取关于分布可变性的所有内容是其四分位距(框的长度或高度)和范围(显示极端之间的长度或高度)。

作为近似值,看起来相同的箱形图可能具有非常相似的方差,但请注意。盒子位置或尾部(或两者)非常不同的盒子图最不可能有相似的方差,但这并非不可能。但是,即使箱形图看起来相同,您也不会在普通或普通箱形图中获得有关箱内可变性或晶须内可变性的信息(通常在箱和最近四分位数 1.5 IQR 内的数据点之间显示线) . 注意存在几种箱形图变体;作者通常不善于记录他们的软件使用的精确规则。

箱形图的流行是有代价的。箱线图对于显示许多组或变量(比如 20 或 30,有时甚至更多)的总体特征非常有用。在我看来,通常用于比较 2 或 3 组它们被超卖,因为其他地块可以在同一空间中更清晰地显示更多细节。自然,即使不是普遍赞赏,这也是广泛的,并且箱线图的各种增强显示了更多细节。

认真处理差异需要访问原始数据。

这是粗略的画笔,可以添加更多细节。例如,框内中位数的位置有时会提供更多信息。

更新

我想更多的人对箱形图的用途(和限制)感兴趣,而不是对从箱形图推断方差的具体问题感兴趣(简短的回答是“你不能,除非间接地,近似地,有时”),因此我将根据@Christian Sauer 的提示添加对替代方案的进一步评论。

  • 合理使用的直方图通常仍然具有竞争力。Freedman、Pisani 和 Purves 的现代经典介绍性文本始终使用它们。

  • 各种称为点图或条图(图表)(以及许多其他名称)的东西很容易理解。如果需要,可以在分箱后堆叠相同的点。您可以随心所欲地添加中位数和四分位数,或均值和置信区间。

  • 分位数图似乎是一种后天习得的品味,但在某些方面是最通用的。我在这里包括有序值的图再次累积概率(绘图位置)以及分位数图,如果数据是正在考虑的任何“品牌”分布(正态、指数、伽马等),则分位数图将是直的。(感谢@Scortchi 引用 CJ Geyer 使用的“品牌名称”。)

但是不可能有一个完整的列表。(例如,我将补充一点,例如,当数字偏好猖獗时,茎叶表示非常适合查看数据中的重要细节。)关键原则是最好的分布图类型允许对数据中可能有趣或重要的精细结构(模态、粒度、异常值等)以及粗略结构(水平、分布、偏度等) 的看似不可能的感知。

箱线图并不同样擅长显示各种结构。它们不可能,也不打算成为。值得指出的是,JW Tukey 在Exploratory data analysis Reading, MA: Addison-Wesley (1977) 中给出了来自 Rayleigh 的双峰数据示例,其中箱形图完全掩盖了主要结构。作为一个伟大的统计学家,他很清楚箱形图并不总是答案。

在介绍性文本中普遍存在的一种奇怪做法是在讨论 ANOVA 的同时邀请读者查看显示中位数和四分位数的箱形图,而不是均值和方差(而是 SD)。自然,查看数据比不查看要好得多,但即便如此,更合适的图形表示可以说是原始数据的一些图,其拟合均值 +/- SE 的某个适当倍数。

一种天真的方法:

在正态分布中,25% 和 75% 的分位数位于距中心 $0.67\cdot\sigma$ 的距离处。这使得 50% 的中心密度覆盖了这个距离的两倍($1.35\cdot\sigma$)。在箱线图中,四分位范围(IQR,从箱底到顶的距离)覆盖了 50% 居中的样本量。0.67σ distance from the center. That gives that the 50% centered density covers twice this distance (1.35σ). In a boxplot, the intequartile Range (IQR, the distance from the bottom of the box to the top) covers the 50% centered amount of sample.

如果您假设您的人口遵循正态分布(有时这是一个很大的假设,而不是那么微不足道),那么您的人口的标准偏差可以从等式 $IQR=1.35\cdot\sigma$ 粗略估计,即 $\sigma=0.74\cdot IQR$。IQR=1.35σ, that is σ=0.74IQR.

关于通过箱线图比较方差:更宽的框意味着更大的方差,但这会给你探索性的理解,你还必须考虑胡须和异常值。为了确认,您应该使用假设对比。