阅读盒须图:可以收集组间的显着差异吗?

机器算法验证 方差分析 数据可视化 箱形图
2022-03-17 02:17:09

假设我们正在查看这个盒须图:

阴谋

在星期四和星期五之间,我认为大多数人都会同意睡眠时间似乎存在显着差异。不过,这是一个在统计上有效的猜想吗?由于周四和周五的内四分位范围都没有重叠,我们能否辨别出显着差异?星期四和星期五的上下胡须分别重叠的事实呢?这会影响我们的分析吗?

通常伴随这样的图表会是某种方差分析,但我只是好奇我们可以通过查看箱线图来说明组之间的差异。

2个回答

是的你可以。至少在大致意义上。

我概述了下面的方式(实际上,正如您所建议的那样,与“盒子重叠”有关系)以及一些警告和限制。但首先让我们讨论一些背景和上下文的预备知识。(我认为这里的适当答案不应该集中在示例的细节上——尽管这可能值得一提——而是使用箱线图来评估是否可以很容易地将明显差异解释为随机变化的核心问题.)

如果您可以访问数据,则可以绘制为这种视觉比较而设计的缺口箱线图。

图像显示 R 中的缺口箱线图

这里有关于缺口箱线图计算的讨论如果缺口间隔(对于典型的默认值)不重叠,则被比较的两组在(大约)5%的水平上有所不同;这些计算基于正常的计算,但它们非常稳健,并且在一系列分布中表现得相当好。如果将其视为正式测试,则正常情况下的功率不会很高,但对于各种或多或少“典型”的重尾案例来说应该做得很好。

考虑到缺口箱线图的工作原理,您可以辨别出一个快速的经验法则,当您只有问题中的显示时,该法则将起作用。当样本量为 10 并且中位数靠近盒子的中间时,缺口箱线图中的缺口大约是盒子的宽度,因此缺口端和盒子的位置大致相同。

请参阅此处以讨论如何“n=10“经验法则出现了。

但是,您不需要盒子中间的中位数来进行比较;这只能解释我们是如何得出这个规则的。虽然我们从缺口箱线图和基于正态的中位数区间计算开始,但我们现在只考虑“箱重叠”规则n=10和一个空值(连同任何进一步的假设)将导致相同的连续分布与一些倾向于分离盒子的替代方案(不一定是纯粹的位置偏移,尽管这是最容易解释的替代方案)。

在单个观测值出现的样本大小中,四分位数的可能相对排序(遵循 Tukey 定义的箱线图中的铰链)的概率不取决于零值下的分布形状。在这种情况下(例如在n=9在每个样本中)此版本的测试测试是免费分发的。n=10它不是无分布的(因为相邻订单统计的平均值的分布现在确实与分布形状有关),但它几乎是无分布的。

第一类错误率接近n=10:对许多常用分布(对称分布和偏斜分布、重尾分布和轻尾分布)的模拟表明,两样本框重叠检验的显着性水平约为 2.3%n=10,10(不同的分布实际上并没有太大的变化),大约是 5.6% 的测试n=9,9(在 5% 以下n=8,8,大概是因为顺序统计的平均减少了方差,而不是观察的损失增加了方差)。如果您有 9 和 10 的样本,则显着性水平低于 5%。

其他样品尺寸:如果您知道样品尺寸,您可以从显示屏上找出凹槽的位置。如果您对样本大小有一个下限,则可以在缺口位置上获得一个上限。但即使你只知道n至少为 10,您可以快速检查框重叠。缺口间隔的宽度与n所以你可以在n=40, 凹槽应该大约是从中位数到每个四分位数的一半。

看你的情节:

请注意,我们可以从问题中图的外观看出,样本量必须至少为 5;如果它们小于 5,则单个样本箱线图将有明显的线索表明它们来自较小的样本量(例如中位数是每个框的死点,或者当存在异常值时,晶须的长度为 0)。

或者,如果框(标记四分位数)不相互重叠且样本量至少为 10,则被比较的两组在 5% 水平上应具有不同的中位数(视为单个成对比较)。

如果你不知道n的,因为我们知道样本量至少应该是 5,你只需要让间隔比盒子大一点,特别是,如果你将每个盒子从中位数延伸大约 40% 的距离,但它们仍然没有'不重叠,它们表明存在显着差异n=5——这里回到缺口箱线图推理的一个论点,而不是我们可以辨别的更广泛的基础来比较盒子。

[注意,这没有考虑比较的次数,所以如果你进行多重比较,你的总体 I 型错误会更大。它用于目视检查而不是正式测试;然而,所涉及的想法可以适应更正式的方法,包括调整多重比较。]

在解决了你是否可以之后,考虑你是否应该是合理的。也许不是;潜在的 p-hacking 问题是真实存在的,但是如果您使用它来确定是否,例如,要收集有关研究问题的新数据,而您所拥有的只是论文中的箱线图 - 比如说 - 它可能是能够对是否存在比由噪声引起的变化容易解释的更多内容进行一些评估非常有用。但是深入考虑这个问题实际上会回答一个不同的问题。

不,你不能。如果您有样本量和大量经验,您可能能够猜测 - 您猜测的准确性将取决于(除了效应量之外)样本量。如果每组 N = 1,000,000,则意义重大。如果每组 N = 10,则不是那么多。每组 100 个,很难猜到。

我认为这是一件好事与箱线图有关的事情不是试图猜测统计显着性,而是查看正在发生的事情并尝试对其进行推理。唔。周末多睡觉。这很有趣,但并不令人惊讶。我们可以将睡眠时间建模为周末与否的函数。或者我们可以尝试看看这种模式是否有所不同。也许退休的人没有这种模式?轮班工人呢?周末上班的人?每周工作 7 天的人?

正如我最喜欢的研究生院教授(赫尔曼弗里德曼)曾经说过的:“停止研究!”