t 检验的“近似正常”评估

机器算法验证 正态分布 t检验 引导程序 中心极限定理 近似
2022-02-26 11:17:44

我正在使用 Welch 的 t 检验测试均值。底层分布远非正常(比此处相关讨论中的示例更偏斜)。我可以获得更多数据,但想要一些原则性的方法来确定这样做的程度。

  1. 是否有一个很好的启发式来评估样本分布是否可以接受?哪些偏离常态最令人担忧?
  2. 是否有其他方法——例如依赖样本统计的引导置信区间——更有意义?
1个回答

由于t检验假设正态性,并且您的基础分布不正态,因此无法确定样本分布是否可接受的原则方法。然而,随着样本量变得“大”,中心极限定理开始发挥作用,您可以使用大样本 z 检验,这基本上会给您与 t 检验相同的答案,因为t接近正态分布大样本。

统计书籍/课程通常暗示,在 25 或 30 个样本大小时,CLT 会以一种有用的方式发挥作用。然而,我的经验是,即使有数百个大样本 z 检验的样本量仍然很差(例如,有计数数据)。

在我看来,置换测试非常适合您的问题。它应该具有与罐装非参数检验(例如,Mann-Whitney)相同或更好的功效,并且您不必担心正态性问题。而且,他们写起来很有趣。