机器算法验证 - 我应该检查什么是正态性：原始数据或残差？ - 吾爱随笔录

我应该检查什么是正态性：原始数据或残差？

机器算法验证正态假设残差假设

2022-02-01 08:39:30

我了解到我必须测试正态性，而不是原始数据，而是它们的残差。我应该计算残差然后做夏皮罗-威尔克的 W 检验吗？

残差是否计算为：？ $X_i - \text{mean}$

有关我的数据和设计，请参阅上一个问题。

3个回答

为什么必须测试正态性？

线性回归中的标准假设是理论残差是独立且正态分布的。观察到的残差是对理论残差的估计，但不是独立的（残差上有一些变换可以消除一些相关性，但仍然只给出真实残差的近似值）。因此，对观察到的残差进行测试并不能保证理论残差匹配。

如果理论残差不是完全正态分布，但样本量足够大，则中心极限定理表明基于正态假设的通常推断（测试和置信区间，但不一定是预测区间）仍将近似正确.

另请注意，正态性检验是排除检验，它们可以告诉您数据不太可能来自正态分布。但是，如果检验不显着并不意味着数据来自正态分布，也可能意味着您没有足够的能力看到差异。样本量越大，检测非正态性的能力就越强，但样本越大和 CLT 意味着非正态性最不重要。因此，对于小样本量，正态性假设很重要，但测试毫无意义，对于大样本量，测试可能更准确，但精确正态性问题变得毫无意义。

因此，综合以上所有内容，比检验精确正态性更重要的是了解数据背后的科学，看看人口是否足够接近正常。像 qqplots 这样的图表可以很好地诊断，但也需要了解科学。如果担心异常值的偏度或可能性太大，则可以使用不需要正态性假设的非参数方法。

高斯假设是指模型的残差。对原始数据没有必要的假设。以每日啤酒销量的分布在此处输入图像描述为例。在一个合理的模型捕捉到星期几、假期/事件影响、水平变化/时间趋势之后，我们得到

首先，您可以使用QQ 图“目测” ，以大致了解如何在 R 中生成一个。

根据R 手册，您可以将数据向量直接输入 shapiro.test() 函数。

如果您想自己计算残差，是的，每个残差都是根据您的一组观察结果计算的。你可以在这里看到更多关于它的信息。

其它你可能感兴趣的问题