我正在与一位同事辩论,我开始怀疑我是否错了,但互联网让我更加困惑。
我们有连续数据是对个人进行回顾性选择的。选择是非随机的。我们的样本量约为。我们的数据严重向左倾斜,尾部有一些强烈的颠簸。
我的策略是通过直方图、qq 图和 Shapiro Wilk 检验在两组之间进行统计测试之前查看数据的分布。如果数据大致正常,我会使用适当的测试(t 检验、方差分析、线性回归等)。如果不是,我使用适当的非参数方法(Mann-Whitney 检验、Kruskal-Wallis、Bootstrap 回归模型)。
如果样本量 > 30 或 > 50,我的同事不会查看分布,他会自动假设它是正常的,并引用中心极限定理来使用 t 检验或 ANOVA。
他们引用了这篇论文:t 检验、非参数检验和大型研究——统计实践的悖论?并说我过度使用非参数测试。我的理解是我的方法会告诉我是否适合进行正态分布,因为我认为对于严重偏斜的数据,达到〜正态分布的 n 更高。我知道如果样本量足够大,它最终会到达那里,但特别是对于较小的样本量,检查不是更好吗?对我来说,由于多次测试表明数据不正常,因此使用正态分布是不合适的。此外,如果假设正态性只需要 30 个样本量,为什么要在统计软件中的其他分布上做这么多工作?那时一切都将是正态分布或非参数化。为什么要打扰二项式分布或伽马分布?但是他们一直给我发关于中心极限定理的论文,现在我不太确定。也许我错了,我不应该费心检查这些假设。
谁是对的,为什么?