这个问题似乎一直在抬头,为了我自己对统计数据的理解(和理智!),我试图将其斩首。
一般线性模型(t检验、方差分析、回归等)的假设包括“正态性假设”,但我发现这很少被清楚地描述。
我经常遇到统计教科书/手册等。简单地说“正态假设”适用于每个组(即分类 X 变量),我们应该检查每个组的正态性偏差。
问题:
假设是指 Y 的值还是 Y 的残差?
对于特定组,是否有可能具有 Y值的强烈非正态分布(例如,偏斜)但 Y残差的近似(或至少更正态)分布?
其他来源描述了该假设与模型的残差有关(在有组的情况下,例如 t 检验 / ANOVA),我们应该检查这些残差的正态性偏差(即,只有一个 QQ 图/检验跑)。
模型残差的正态性是否意味着组的残差正态性?换句话说,我们是否应该只检查模型残差(与许多文本中的说明相反)?
为了把它放在一个上下文中,考虑这个假设的例子:
- 我想比较两个种群 (X) 之间的树高 (Y)。
- 在一个种群中,Y 的分布是强烈右偏的(即大多数树矮,很少高树),而另一种几乎是正常的
- 在正态分布的人群中,身高总体较高(表明可能存在“真实”差异)。
- 数据的转换并没有显着改善第一人口的分布。
首先,在给定高度分布完全不同的情况下比较组是否有效?
我如何在这里处理“正常假设”?一个群体的召回高度不是正态分布的。我是否分别检查两个总体的残差或模型的残差(t 检验)?
请在回复中按数字参考问题,经验告诉我,人们很容易迷路或走神(尤其是我!)。请记住,我不是统计学家;尽管我对统计数据有合理的概念性(即,不是技术性的!)理解。
PS,我已经搜索了档案并阅读了以下没有巩固我理解的线程: