费舍尔的迷幻药真的像他们说的那么糟糕吗?

机器算法验证 方差分析 多重比较 事后 邦费罗尼 渔民LSD
2022-01-25 18:24:12

当我们对两组进行实验(小样本量(通常每个治疗组的样本量约为 7~8))时,我们使用 t 检验来检验差异。但是,当我们执行 ANOVA(显然对于两个以上的组)时,我们会使用 Bonferroni(LSD/# of pairwise comparisons)或 Tukey's 作为事后的东西,作为一名学生,我已经被警告不要使用费雪最小显着性差异(LSD)。

现在的问题是,LSD 类似于成对 t 检验(我是对的吗?),所以它唯一没有考虑的是我们正在进行多重比较。如果方差分析本身很重要,那么在处理 6 个组时,这有多重要?

或者换句话说,使用 Fisher 的 LSD 是否有任何科学/统计原因?

4个回答

在处理 6 个组时,多重比较有多重要?好吧...对于六个组,您最多可以处理可能的事后成对比较。我会让不可估量的 Randall Munroe 阐述多重比较的重要性:6(61)2=15

在此处输入图像描述

我还要补充一点,如果在你的开场白中,你建议有时你有七个组,那么事后成对测试的最大数量,即与刚刚展示的软糖场景(也展示了 21 个测试;)太相似了所以,真的,除非你想通过反复向你发送xkcd 882的副本来嘲笑你,否则我会继续进行多重比较调整(FWER,如 Bonferroni 或 Holm-Sidak,或FDR,如 Benjamini 和 Hochberg) .7(71)2=21

Fisher 的 LSD 确实是一系列成对 t 检验,每个检验都使用来自显着 ANOVA 的均方误差作为其汇总方差估计(并自然采用相关的自由度)。方差分析显着是该检验的一个附加限制。

它仅在 3 个组的特殊情况下将家庭错误率限制为 alpha。Howell 在他的著作《行为科学基础统计》第 8 版的第 16 章中对它是如何做到的有一个非常好的和相对简单的解释,David C. Howell

以上 3 组 alpha 迅速膨胀(正如@Alexis 上面指出的那样)。这当然不适合 6 组。我相信正是这种有限的适用性导致大多数人建议忽略它作为一种选择。

从 Neyman-Pearson 的角度来看,Fisher 的测试就像每个人所说的一样糟糕,如果你按照你的问题所暗示的那样去做——在对每个个体差异进行显着的 ANOVA 测试之后。您可以在许多已发表的 论文中看到这一点。但是,在 ANOVA 或其中任何一个之后测试所有差异,既没有必要也不推荐。而且,Fisher 的检验不是根据 Neyman-Pearson 的统计推断理论制定的。

重要的是要记住,当 Fisher 提出 LSD 时,他并没有真正将多重检验视为一个重要问题,因为他没有将显着性截止视为决定结果是否重要的​​硬性规则。人们可以构建 LSD 作为一种简单的方法来细读数据,以找出可能有重要结果的地方,但不能判断什么是有意义的。请记住,Fisher 说过,如果p > 0.05,您应该运行更多的主题。

为什么你会认为测试一切都是一个好主意?首先考虑为什么要运行 ANOVA。您可能被告知这是因为运行多个 t 检验是有问题的,正如您在问题中所暗示的那样。那你为什么要运行它们,或者之后运行它们?我知道它会发生,但我还没有需要在 ANOVA 之后进行测试。ANOVA 告诉您,您的数据模式不是一组相等的值,其中可能有一些含义。许多人对测试没有告诉你有意义的位在哪里,但他们忘记了数据和理论告诉你这一点的警告挂了电话。

Fisher LSD 背后的推理可以扩展到N = 3 以外的情况。

我将详细讨论四组的情况。为了将家庭类型 I 错误率保持在 0.05 或更低,多重比较校正因子为 3(即每次比较 alpha 为 0.05/3)就足够了,尽管四组之间有六个事后比较。这是因为:

  • 如果所有四个真实均值都相等,则四组上的综合 Anova 将家庭错误率限制为 0.05;
  • 如果三个真实均值相等而第四个不同,则只有三个比较可能产生 I 类错误;
  • 如果两个真实均值相等且与其他两个不同,它们彼此相等,则只有两个比较可能会产生 I 类错误。

这耗尽了可能性。在所有情况下,如果多重比较的校正因子为 3,则对于真实均值相等的组,找到一个或多个 p值低于 0.05的概率保持在或低于 0.05,这是家庭错误率的定义。

四组的这种推理是费舍尔对他的三组最小显着差异方法的解释的概括。对于N组,如果综合 Anova 检验显着,则校正因子为 ( N -1)( N -2)/2。因此,Bonferroni 修正系数N ( N -1)/2 太强了。对于N = 3使用 1 的 alpha 校正因子就足够了(这就是为什么 Fisher 的 LSD 适用于N = 3 的原因),对于N = 4 使用 3 的因子,对于 N = 5 使用 6 的因子,对于N = 5 使用 10 的因子N =6,以此类推。