我应该检查什么是正态性:原始数据或残差?
机器算法验证
正态假设
残差
假设
2022-02-01 08:39:30
3个回答
为什么必须测试正态性?
线性回归中的标准假设是理论残差是独立且正态分布的。观察到的残差是对理论残差的估计,但不是独立的(残差上有一些变换可以消除一些相关性,但仍然只给出真实残差的近似值)。因此,对观察到的残差进行测试并不能保证理论残差匹配。
如果理论残差不是完全正态分布,但样本量足够大,则中心极限定理表明基于正态假设的通常推断(测试和置信区间,但不一定是预测区间)仍将近似正确.
另请注意,正态性检验是排除检验,它们可以告诉您数据不太可能来自正态分布。但是,如果检验不显着并不意味着数据来自正态分布,也可能意味着您没有足够的能力看到差异。样本量越大,检测非正态性的能力就越强,但样本越大和 CLT 意味着非正态性最不重要。因此,对于小样本量,正态性假设很重要,但测试毫无意义,对于大样本量,测试可能更准确,但精确正态性问题变得毫无意义。
因此,综合以上所有内容,比检验精确正态性更重要的是了解数据背后的科学,看看人口是否足够接近正常。像 qqplots 这样的图表可以很好地诊断,但也需要了解科学。如果担心异常值的偏度或可能性太大,则可以使用不需要正态性假设的非参数方法。
高斯假设是指模型的残差。对原始数据没有必要的假设。以每日啤酒销量的分布 为例。在一个合理的模型捕捉到星期几、假期/事件影响、水平变化/时间趋势之后,我们得到
其它你可能感兴趣的问题