对于“假设族”(关于族错误率),什么可能是一个清晰、实用的定义?

机器算法验证 假设检验 多重比较
2022-03-01 21:22:08

在尝试评估实验/项目/分析中的假设系列的构成时,我发现“目的相似”和“内容相似”作为界定系列的指导方针,但这些都留下了很多解释的余地​​(至少可以说)。

似乎很清楚,如果在分析过程中,我对组均值进行了几次检验,并对比例同质性进行了单独的一批检验,那么我不会将所有内容捆绑到一个假设系列中。

但是,如果我有几批有点相关的组均值测试,什么标准将它们组合成一个家庭(或将它们分成不同的家庭)?一个家庭的所有成员都应该有相同的响应变量吗?如果我有不同的响应变量但涉及相同的案例集,它们会被捆绑到一个假设系列中吗?

3个回答

多重比较的问题是一个非常大的话题。有很多意见,也有很多分歧。这是由于很多事情;除其他外,部分原因是这个问题非常重要,部分原因是确实没有最终规则或标准。举一个典型案例:你用k治疗并获得显着的方差分析,所以现在您想知道哪种治疗方法不同。你应该怎么做,跑k(k1)/2t检验?虽然这些测试将单独举行α在 0.05 时,'familywise'α(即,至少发生 1 种 I 类错误的概率)将爆炸。事实上,家庭错误率将是1(1α)k. 问题是,什么定义了“家庭”?除了“家庭”是一组对比这一微不足道的答案之外,没有最终的答案。是否应将任何特定的对比集视为一个家庭是一个主观决定。我一生中进行过的第 3 次、第 17 次和第 42 次分析是一组对比,我本可以调整我的α阈值,以确保其中 I 类错误的概率保持在 5%,但没有人会觉得这很有意义。你的问题是你是否认为你的对比是有意义的,只有你才能做出判断。我将提供一些标准方法。许多分析人士认为,如果一组对比来自同一个实验/数据集,则应该将它们视为一个家庭,而程序(例如α调整)是必要的。其他人认为,即使对比来自同一个实验,如果它们是先验和正交的,则不需要特殊程序。这两个位置都可以捍卫。最后,还要注意控制家庭错误率的程序是有代价的——即。II 型错误率增加。

标准是假设是相互依存的,如果其中一个被打破,那么你的整个结论或理论就会被打破。因此,您需要保证,如果所有测试都显着,那么它们中的任何一个都不会是错误的。

关于 researchgate 的讨论(http://www.researchgate.net/post/Bonferroni-how_is_the_family_of_hypotheses_defined)提供了一份论文列表,这可能有助于收集意见 - 这些论文实际上是从“何时在多重测试情况下应用更正”这个问题开始的”。那些经常被引用的论文是:

1)罗斯曼KJ。多重比较不需要调整。流行病学.1990;1(1):43-6。http://psg-mac43.ucsf.edu/ticr/syllabus/courses/9/2003/02/27/Lecture/readings/Rothman.pdf

2) 佩内格电视。Bonferroni 调整出了什么问题。英国医学杂志。1998;316(7139):1236-8。http://static.sdu.dk/mediafiles/D/1/F/%7BD1F06030-8FA7-4EE2-BB7D-60D683B18EAA%7DWhat_s-wrong%20_with_Bonferroni_adjustments.BMJ.1998.pdf

3) Bender R, Lange S. 调整多重测试——何时以及如何?临床流行病学杂志。2001;54:343-9。http://www.rbsd.de/PDF/multiple.pdf

概括:

1)和2)关注“所有零假设都是真的”,称为一般零假设。如果应用了多重比较的调整,它可以被更恰当地拒绝(即没有 alpha 累积)。然而,1) 和 2) 都反对,一般的零假设在科学研究过程中很少被充分使用——因此,当一个人的数据中的一个/一些零假设时,“整个理论破裂”标准不会自动适用分析被偶然拒绝。1) 补充说,认为单一的零假设是幼稚的,这些假设被(错误地)拒绝了,将永远不会再被科学界重新审视。

3) 指出一旦单个假设在一个论点中融合,就必须进行调整。

从我的观点来看,1)、2)、3)只是镜像,我们必须多么小心地打破“整个理论”的标准。也没有办法将所有无效假设放在一个大香肠中 - 也没有一种方法可以依赖于提供许多单一假设的香肠切片。这是实证工作真正与研究领域的理论相结合的地方。