我在 SPSS 中使用广义线性模型来查看 16 种不同植物的毛虫平均数量(非正态,使用 Tweedie 分布)的差异。
我想进行多重比较,但我不确定是否应该使用 Sidak 或 Bonferroni 校正测试。这两个测试有什么区别?这个比那个好吗?
我在 SPSS 中使用广义线性模型来查看 16 种不同植物的毛虫平均数量(非正态,使用 Tweedie 分布)的差异。
我想进行多重比较,但我不确定是否应该使用 Sidak 或 Bonferroni 校正测试。这两个测试有什么区别?这个比那个好吗?
如果您个独立的统计测试,并且在每种情况下都获得空值,那么您是否会发现“显着性”只是随机变量的抽取。具体来说,它取自和的二项分布。例如,如果您计划使用运行 3 个测试,并且(您不知道)每种情况实际上没有区别,那么在每个测试中找到显着结果的几率为 5%。这样,I 类错误率就保持在对于单独的测试,但在 3 组测试中,长期 I 类错误率会更高。如果您认为将这 3 个测试组合/考虑在一起是有意义的,那么您可能希望将 I 类错误率保持在作为一个整体,而不是单独进行。你应该怎么做?有两种方法集中于从原始的(即)转移到一个新的值(即):
Bonferroni:调整用于评估“重要性”的,使得
Dunn-Sidak:调整使用
(请注意,Dunn-Sidak 假设集合中的所有测试都是相互独立的,并且如果该假设不成立,可能会产生家庭类型 I 错误膨胀。)
重要的是要注意,在进行测试时,您要避免两种错误,I 型(即,说没有差异时有差异)和 II 型(即,说没有实际存在差异)。通常,当人们讨论这个话题时,他们只讨论——而且似乎只知道/关心——第一类错误。此外,人们经常忽略提及计算的错误率只有在所有空值都为真时才成立。很明显,如果原假设为假,你就不能犯 I 类错误,但在讨论这个问题时,明确地牢记这一事实是很重要的。
我提出这一点是因为这些事实的含义似乎经常被忽视。首先,如果较小时差异可能非常小),因此应始终首选(如果适用)。其次,应该使用“降级”方法。即先测试最大的效果;如果您确信在这种情况下不会获得 null,那么 I 类错误的最大可能数量是,因此应该相应地调整下一个测试,依此类推。(这常常让人不舒服,看起来像钓鱼,其实不然钓鱼,因为测试是独立的,并且您打算在看到数据之前进行测试。这只是优化调整的一种方式。)
无论您如何评价类型 I 相对于类型 II 错误,上述情况都成立。然而,事先没有理由相信第一类错误比第二类错误更糟糕(尽管每个人似乎都这么认为)。相反,这是一个必须由研究人员做出的决定,并且必须针对这种情况。就个人而言,如果我运行理论上建议的 a-priori正交对比,我通常不会调整。
(再次说明这一点,因为它很重要,以上所有假设都假设测试是独立的。如果对比不是独立的,例如当多个治疗分别与同一对照进行比较时,则不同于调整的方法,例如 Dunnett 的检验,应该使用。)
用表示校正后的显着性水平,然后 Bonferroni 的工作方式如下:将显着性水平除以测试数,即。Sidak 是这样工作的(如果测试是独立的): 。
因为,Sidak 校正更强大(即您更容易获得显着结果),但 Bonferroni 处理起来更简单一些。
如果您需要更强大的程序,您可能需要使用 Bonferroni-Holm 程序。
Sidak 修正假设各个测试在统计上是独立的。Bonferroni 校正不假设这一点。
Sidak 和 Bonferroni 非常相似,以至于无论您使用哪种程序,您都可能得到相同的结果。Bonferroni 只比 Sidak 稍微保守一点。例如,对于 2 次比较和 0.05 的全族 alpha,Sidak 将以 0.0253 进行每次测试,而 Bonferroni 将以 0.0250 进行每次测试。
该网站上的许多评论者表示,只有当您比较的测试统计数据独立时,Sidak 才有效。这不是真的。当测试统计量为负相关时,Sidak 允许家庭错误率略微膨胀,但如果您正在进行双边测试,负相关通常不是问题。在非负依赖下,Sidak 实际上确实提供了家庭错误率的上限。也就是说,还有其他程序可以提供这样的界限,并且往往比 Sidak 保留更多的统计能力。所以 Sidak 可能不是最好的选择。
Bonferroni 程序提供的一件事(Sidak 没有)是严格控制 I 类错误的预期数量——即所谓的“每家庭错误率”,它比家庭错误率更保守。有关更多信息,请参阅:Frane, AV (2015)“每个家庭的 I 类错误率是否与社会和行为科学相关?” 现代应用统计方法杂志 14 (1), 12-23。