这一切都在家庭中;但是我们也包括姻亲吗?

机器算法验证 多重比较 事后
2022-03-11 06:24:15

假设我有一个包含两个或更多因素的实验。构建了一个整体 ANOVA,然后我们跟进两组或更多组事后检验,比如多重比较。我的问题是关于应该使用多大——以及有多少——家庭作为这些事后测试的多重性调整的基础。

一个例子是 Tukey 的 EDA 书中的 warp-breaks 数据集。有两个因素:(wool在两个层面上)和tension(在三个层面上)。方差分析表是:

Source       Df Sum Sq Mean Sq F value    Pr(>F)    
wool          1  450.7  450.67  3.7653 0.0582130
tension       2 2034.3 1017.13  8.4980 0.0006926
wool:tension  2 1002.8  501.39  4.1891 0.0210442
Residuals    48 5745.1  119.69  

显然,模型中需要交互。因此,我们决定对每个因素的水平进行比较,同时保持另一个因素不变。结果如下,后面会提到一些注释:

*** Pairwise comparisons of tension for each wool ***
*** All combined: Family T ***

wool = A:   *** Family T|A ***
 contrast   estimate       SE df t.ratio
 L - M    20.5555556 5.157299 48   3.986
 L - H    20.0000000 5.157299 48   3.878
 M - H    -0.5555556 5.157299 48  -0.108

wool = B:   *** Family T|B ***
 contrast   estimate       SE df t.ratio
 L - M    -0.5555556 5.157299 48  -0.108
 L - H     9.4444444 5.157299 48   1.831
 M - H    10.0000000 5.157299 48   1.939


*** Comparison of wool for each tension ***
*** All combined: Family W ***

tension = L:   *** Family W|L ***
 contrast  estimate       SE df t.ratio
 A - B    16.333333 5.157299 48   3.167

tension = M:   *** Family W|M ***
 contrast  estimate       SE df t.ratio
 A - B    -4.777778 5.157299 48  -0.926

tension = H:   *** Family W|H ***
 contrast  estimate       SE df t.ratio
 A - B     5.777778 5.157299 48   1.120

我认为那里有不同的做法,我想知道哪些是最常见的,以及人们会为每种方法提出哪些论据。在计算调整P值,我们是否应该对...进行多重调整

  1. 五个最小的家庭(T|A、T|B、...、W|H)中的每一个?(注意 - 最后 3 个家庭只有一项测试,因此不会对这些家庭进行多重调整)
  2. 每个较大的家庭(T,有 6 个测试和 W,有 3 个测试)分别?
  3. 全部6+3=9考试算是一个大家庭?

我对人们通常做什么(即使他们没有考虑太多)和为什么(如果他们有的话)感兴趣。我可能会提到的几件事是:

  • 有3个FANOVA 表中的测试。我不记得看到有人考虑对 ANOVA 测试进行多重性调整。如果是这种情况,并且您推荐选项(3),您是否不一致?
  • 如果我们做了一个稍微小一点的实验,所有测试都不太强大,那么交互作用可能不会很显着,从而导致仅对边际均值进行的事后比较的数量要少得多。此外,在较大的实验中,边际均值的 SE 可能比单元均值更小。此外,如果多重性调整不那么保守,我们可以用更少的数据得到比用更多数据得到的更“显着”的结果。

有兴趣看看人们怎么说...

1个回答

还没有人回答,所以我将对此进行破解。

这是我的意见(我很想听听其他人的想法),在这种情况下,您应该针对完整的 9 个测试进行调整。假设我们使用全族错误率校正,

  • 我们同时从所有 9 个测试中得出结论。即扫描列表并查看是否有任何重要信息。

  • 为了能够做到这一点,我们正在考虑 5% 的整体家庭错误率。另一种方法是单独将组校正到 5% FWER。这意味着在解释时,我们不能一起解释测试,而是必须查看前 6 个测试并认为有 5% 的假阳性机会,然后依次检查每个进一步的测试知道每组有 5% 的机会出现误报IMO 多重测试校正的效用在于我们能够同时从多个测试中同时得出推论。似乎更合乎逻辑的是,我们应该查看所有 9 项测试并知道有 5% 的误报机会,而不是必须单独检查它们,类似于根本不纠正。

  • 三者调整问题F- 方差分析中的测试很有趣,但在我看来,仅当您计划进行一些模型选择时才相关,其中您只接受重要的预测变量。可能是一本很好的读物,特别是结论是一本非常简洁和优秀的读物。我从这个问题中偷了那个链接。

  • 您关于包含交互效果的观点很有趣,我认为您可以将其定义为模型选择。如果它们是显着的,你会包括交互效应吗?在这种情况下,也许F应该调整原始方差分析中的统计数据,以便于选择重要的预测变量。

总的来说,我认为如果您从一组中同时进行推断,则必须考虑该组中的每个测试以进行更正。否则,对受控组错误率的标准理解是站不住脚的,而且很难从概念上跟踪哪些已调整,哪些未调整。在我看来,让所有测试负责并将家庭错误率保持在给定阈值要好得多。

如果你有任何反驳,我很想听听他们,我相信有些人会不同意这里的一些事情。很想听听别人的想法。