我应该检查什么是正态性:原始数据或残差?

机器算法验证 正态假设 残差 假设
2022-02-01 08:39:30

我了解到我必须测试正态性,而不是原始数据,而是它们的残差。我应该计算残差然后做夏皮罗-威尔克的 W 检验吗?

残差是否计算为:Ximean

有关我的数据和设计,请参阅上一个问题

3个回答

为什么必须测试正态性?

线性回归中的标准假设是理论残差是独立且正态分布的。观察到的残差是对理论残差的估计,但不是独立的(残差上有一些变换可以消除一些相关性,但仍然只给出真实残差的近似值)。因此,对观察到的残差进行测试并不能保证理论残差匹配。

如果理论残差不是完全正态分布,但样本量足够大,则中心极限定理表明基于正态假设的通常推断(测试和置信区间,但不一定是预测区间)仍将近似正确.

另请注意,正态性检验是排除检验,它们可以告诉您数据不太可能来自正态分布。但是,如果检验不显着并不意味着数据来自正态分布,也可能意味着您没有足够的能力看到差异。样本量越大,检测非正态性的能力就越强,但样本越大和 CLT 意味着非正态性最不重要。因此,对于小样本量,正态性假设很重要,但测试毫无意义,对于大样本量,测试可能更准确,但精确正态性问题变得毫无意义。

因此,综合以上所有内容,比检验精确正态性更重要的是了解数据背后的科学,看看人口是否足够接近正常。像 qqplots 这样的图表可以很好地诊断,但也需要了解科学。如果担心异常值的偏度或可能性太大,则可以使用不需要正态性假设的非参数方法。

高斯假设是指模型的残差。对原始数据没有必要的假设。以每日啤酒销量的分布 在此处输入图像描述为例。在一个合理的模型捕捉到星期几、假期/事件影响、水平变化/时间趋势之后,我们得到在此处输入图像描述

首先,您可以使用QQ 图“目测” ,以大致了解如何在 R 中生成一个。

根据R 手册,您可以将数据向量直接输入 shapiro.test() 函数。

如果您想自己计算残差,是的,每个残差都是根据您的一组观察结果计算的。你可以在这里看到更多关于它的信息