机器算法验证 - 西达克还是邦费罗尼？ - 吾爱随笔录

西达克还是邦费罗尼？

机器算法验证多重比较事后邦费罗尼

2022-01-27 07:15:10

我在 SPSS 中使用广义线性模型来查看 16 种不同植物的毛虫平均数量（非正态，使用 Tweedie 分布）的差异。

我想进行多重比较，但我不确定是否应该使用 Sidak 或 Bonferroni 校正测试。这两个测试有什么区别？这个比那个好吗？

4个回答

如果您个独立的统计测试，并且在每种情况下都获得空值，那么您是否会发现“显着性”只是随机变量的抽取。具体来说，它取自和的二项分布。例如，如果您计划使用运行 3 个测试，并且（您不知道）每种情况实际上没有区别，那么在每个测试中找到显着结果的几率为 5%。这样，I 类错误率就保持在 $k$ $\alpha$ $p=\alpha$ $n=k$ $\alpha=.05$ $\alpha$ 对于单独的测试，但在 3 组测试中，长期 I 类错误率会更高。如果您认为将这 3 个测试组合/考虑在一起是有意义的，那么您可能希望将 I 类错误率保持在作为一个整体，而不是单独进行。你应该怎么做？有两种方法集中于从原始的（即）转移到一个新的值（即）： $\alpha$ $\alpha$ $\alpha_o$ $\alpha_{\rm new}$

Bonferroni：调整用于评估“重要性”的，使得 $\alpha$

α_{n e w} = \frac{α_{o}}{k}

$\alpha_{\rm new}=\frac{\alpha_{o}}{k}\qquad\qquad\quad$

Dunn-Sidak：调整使用 $\alpha$

α_{n e w} = 1 - (1 - α_{o})^{1 / k}

$\alpha_{\rm new}=1-(1-\alpha_{o})^{1/k}$

（请注意，Dunn-Sidak 假设集合中的所有测试都是相互独立的，并且如果该假设不成立，可能会产生家庭类型 I 错误膨胀。）

重要的是要注意，在进行测试时，您要避免两种错误，I 型（即，说没有差异时有差异）和 II 型（即，说没有实际存在差异）。通常，当人们讨论这个话题时，他们只讨论——而且似乎只知道/关心——第一类错误。此外，人们经常忽略提及计算的错误率只有在所有空值都为真时才成立。很明显，如果原假设为假，你就不能犯 I 类错误，但在讨论这个问题时，明确地牢记这一事实是很重要的。

我提出这一点是因为这些事实的含义似乎经常被忽视。首先，如果较小时差异可能非常小），因此应始终首选（如果适用）。其次，应该使用“降级”方法。即先测试最大的效果；如果您确信在这种情况下不会获得 null，那么 I 类错误的最大可能数量是，因此应该相应地调整下一个测试，依此类推。（这常常让人不舒服，看起来像钓鱼，其实不然 $k>1$ $k$ $k-1$ 钓鱼，因为测试是独立的，并且您打算在看到数据之前进行测试。这只是优化调整的一种方式。） $\alpha$

无论您如何评价类型 I 相对于类型 II 错误，上述情况都成立。然而，事先没有理由相信第一类错误比第二类错误更糟糕（尽管每个人似乎都这么认为）。相反，这是一个必须由研究人员做出的决定，并且必须针对这种情况。就个人而言，如果我运行理论上建议的 a-priori正交对比，我通常不会调整。 $\alpha$

（再次说明这一点，因为它很重要，以上所有假设都假设测试是独立的。如果对比不是独立的，例如当多个治疗分别与同一对照进行比较时，则不同于调整的方法，例如 Dunnett 的检验，应该使用。） $\alpha$

用表示校正后的显着性水平，然后 Bonferroni 的工作方式如下：将显着性水平除以测试数，即。Sidak 是这样工作的（如果测试是独立的）：。 $\alpha^*$ $\alpha$ $n$ $\alpha^*=\alpha/n$ $\alpha^*=1 − (1 − \alpha)^{1/n}$

因为，Sidak 校正更强大（即您更容易获得显着结果），但 Bonferroni 处理起来更简单一些。 $\alpha/n < 1 − (1 − \alpha)^{1/n}$

如果您需要更强大的程序，您可能需要使用 Bonferroni-Holm 程序。

Sidak 修正假设各个测试在统计上是独立的。Bonferroni 校正不假设这一点。

Sidak 和 Bonferroni 非常相似，以至于无论您使用哪种程序，您都可能得到相同的结果。Bonferroni 只比 Sidak 稍微保守一点。例如，对于 2 次比较和 0.05 的全族 alpha，Sidak 将以 0.0253 进行每次测试，而 Bonferroni 将以 0.0250 进行每次测试。

该网站上的许多评论者表示，只有当您比较的测试统计数据独立时，Sidak 才有效。这不是真的。当测试统计量为负相关时，Sidak 允许家庭错误率略微膨胀，但如果您正在进行双边测试，负相关通常不是问题。在非负依赖下，Sidak 实际上确实提供了家庭错误率的上限。也就是说，还有其他程序可以提供这样的界限，并且往往比 Sidak 保留更多的统计能力。所以 Sidak 可能不是最好的选择。

Bonferroni 程序提供的一件事（Sidak 没有）是严格控制 I 类错误的预期数量——即所谓的“每家庭错误率”，它比家庭错误率更保守。有关更多信息，请参阅：Frane, AV (2015)“每个家庭的 I 类错误率是否与社会和行为科学相关？” 现代应用统计方法杂志 14 (1), 12-23。

其它你可能感兴趣的问题

上一篇做 MCMC：使用 jags/stan 或自己实现下一篇多元线性回归模拟