我对我拥有的一些数据的正态性有疑问:我进行了 Kolmogorov 测试,它说 p=.0000 不正常,我不明白:我的分布偏度 =-.497,并且峰度 =-0,024
这是我的分布图,看起来非常正常...
(我有三个分数,每个分数都不正常,对于 Kolmogorov 检验的 p 值显着......我真的不明白)
我对我拥有的一些数据的正态性有疑问:我进行了 Kolmogorov 测试,它说 p=.0000 不正常,我不明白:我的分布偏度 =-.497,并且峰度 =-0,024
这是我的分布图,看起来非常正常...
(我有三个分数,每个分数都不正常,对于 Kolmogorov 检验的 p 值显着......我真的不明白)
你没有依据断言你的数据是正常的。即使您的偏度和过度峰度都恰好为 0,但这并不意味着您的数据是正常的。虽然远离预期值的偏度和峰度表明非正态性,但反之则不成立。存在与正态具有相同偏度和峰度的非正态分布。此处讨论了一个示例,其密度复制如下:
如您所见,它明显是双峰的。在这种情况下,分布是对称的,因此只要存在足够的矩,典型的偏度度量将为 0(实际上所有通常的度量都是)。对于峰态,接近均值的区域对第 4 矩的贡献会倾向于使峰态更小,但尾部相对较重,这往往会使其更大。如果您选择恰到好处,则峰度的值与正常值相同。
您的样本偏度实际上在 -0.5 左右,这表明存在轻微的左偏度。您的直方图和 QQ 图都表明相同 - 轻度左偏分布。(对于大多数常见的正态理论程序来说,这种轻微的偏度不太可能成为问题。)
您正在查看几种不同的非正态性指标,您不应该期望先验地同意这些指标,因为它们考虑了分布的不同方面;对于较小的轻度非正常样本,他们经常会不同意。
现在是一个大问题:*您为什么要测试正常性?*
[根据评论编辑:]
我不太确定,虽然我应该在做方差分析之前
这里有几点需要说明。
一世。如果您将正态性用于推理(例如假设检验),则正态性是 ANOVA 的假设,但它对较大样本中的非正态性并不特别敏感 - 轻微的非正态性影响不大,并且随着样本量的增加,分布可能变得更加不正常,测试可能只会受到一点影响。
ii. 您似乎正在测试响应的正态性(DV)。DV 本身的(无条件)分布在 ANOVA 中不被假定为正态分布。您检查残差以评估关于条件分布的假设的合理性(即假设正常的模型中的误差项) - 即您似乎没有看到正确的东西。事实上,因为检查是对残差进行的,所以您在模型拟合之后而不是之前进行检查。
iii. 正式测试几乎没有用处。这里感兴趣的问题是“非正态性程度对我的推理的影响有多严重?”,假设检验确实没有回应。随着样本量变大,检验越来越能够检测出与正态性的微小差异,而对方差分析中显着性水平的影响越来越小。也就是说,如果您的样本量相当大,正态性检验主要是告诉您样本量很大,这意味着您可能不必担心太多。至少通过 QQ 图,您可以直观地评估它的不正常程度。
iv. 在合理的样本量下,其他假设(例如方差相等和独立性)通常比轻度非正态性更重要。首先担心其他假设......但同样,正式测试并没有回答正确的问题
v. 根据假设检验的结果选择是否进行 ANOVA 或其他检验往往比简单地决定假设假设不成立的行为更糟糕。(有多种方法适用于对假设不正常的数据进行类似单向方差分析的分析,只要您认为没有理由假设正常,就可以使用这些方法。有些方法具有很好的功效在正常情况下,使用体面的软件没有理由避免它们。)
[我相信我对最后一点有参考,但我现在找不到它;如果我找到它,我会试着回来把它放进去]
当样本量很大时,Kolmogorov-Smirnov 检验具有相当大的功效,因此很容易拒绝您的数据与正态性没有差异的原假设。换句话说,测试有时会表明分布在大样本中是不正态的,即使对于大多数意图来说它是正态的。
把它想象成一个 t 检验。如果您有两个高度仅相差千分之一毫米的人群,那么即使差异毫无意义,从统计学上来说,一个令人难以置信的大样本也将支持它们是不同的。
也许您可以依靠其他方法来确定数据的正态性。您使用的图是两个很好的例子,还有偏斜/峰度值。
另一个主题似乎特别相关:正态性测试“基本上没用”吗?
当完全指定原假设时,Kolmogorov-Smirnov 检验是无分布的 - 如果从数据中估计均值和方差,请务必在检验正态性时使用 Lilliefors 变体(如果必须)。这并不是要否定其他答案。