统计测试“稳健”意味着什么?

机器算法验证 假设检验 方差分析 术语 强大的 定义
2022-02-01 17:03:16

是否有一种直观的方式来理解这两个句子的含义以及它们为什么是真的?:

“ANOVA 对于大样本的正态性偏差是‘稳健’的”,并且......“如果组具有相似的样本量,ANOVA 对于异方差性是‘稳健’的”。

3个回答

粗略地说,如果测试或估计量仍然相当好,即使在实践中没有满足其理论发展所需的一些假设,它也被称为“稳健”。评论:

  • 如果您需要对因子的每个级别具有不同方差的数据进行单因素(“单向”)方差分析,那么最好使用单向方差分析的一些变体,例如oneway.test在不需要相等的 R 中差异。正如您所说,如果因子水平之间的方差也不同,那么每个因子的重复次数差异很大的“合并”t 检验或简单的单向方差分析可能会出现问题。

  • 有些文本似乎说 2 样本 t 检验和单向方差分析适用于非正态数据,只要每组重复次数超过 30 次。但如果组内的数据高度偏斜,则情况可能并非如此。

  • 如果 2 样本 t 或单因素 ANOVA 的水平远非正常,但组间差异主要是位置的“偏移”(形状或方差几乎没有变化),那么最好使用 Welch t 检验或 Kruskal -Wallis 非参数检验,分别代替 t 或 ANOVA。

注意:我可以举一个例子来说明,如果你能说出你特别感兴趣的测试以及你不确定的假设。

当我们说一个程序是“稳健的”或“对[特定的假设失败]具有稳健性”时,我们的意思是当基本假设没有得到满足时,该程序仍然可以很好地工作。因此,在目前的情况下,引用的陈述告诉您,在规定的条件下,即使模型中的正态性或同方差性条件不是数据的真实反映,ANOVA 仍然可以很好地工作。

我们必须具体说明索赔是什么。在这种情况下,仅仅挥手并说一些像测试“效果很好”这样的模糊的话是不够的——这不是为了发表声明而进行的检查。

这两个陈述都专门关于显着性水平的准确性(又名“水平鲁棒性”)。

也就是说,声称 I 型错误率与您在这些情况下(违反)假设下计算/选择的错误率相差不大。

然而,即使在这种有限的意义上,这些一般性的主张也太模糊而无法在实践中使用。例如,在第一种情况下,您并不真正知道对于您的目的而言多大足够大,因为您不知道人口分布(如果您知道,则根本不需要考虑这个问题!)。

当然,显着性水平并不是测试的唯一考虑因素。当然,我希望人们关心权力。然而,可悲的是,当像这样的常见陈述很少伴随着仅仅提及权力会发生什么时,重复这些陈述的人在实践中非常关心的直接证据是薄弱的。

在第一种情况下,当您查看相对效率(达到给定功率水平所需的相对样本大小)时,大样本不会为您节省 - 而且大样本的相对效率可能会任意低 - 所以如果您的样本量很大,因为您的预期效果量很小,您可能会遇到一些潜在的严重问题。