如果残差不是正态分布怎么办?

机器算法验证 多重回归 异常值 残差 正态假设
2022-04-05 19:40:51

我想知道如何处理我的多元回归残差的以下非正态分布。

在此处输入图像描述

标准化残差的正态 Q_Q 图

标准化残差的正态性检验

                    Shapiro-Wilk        
           Statistic: ,955 df: 131 Sig: ,000

根据 Shapiro-wilk 检验,正态性检验失败。但是,在排除位于图表左下角的异常值后,我得到了以下测试结果:

标准化残差的正态性检验

                    Shapiro-Wilk        
           Statistic: ,980 df: 130 Sig: ,055

当残差没有正态分布时,我有什么选择?例如,是否可以删除异常值以实现正态分布?

2个回答
  1. 您不应该仅仅因为它们使残差的分布不正常就删除异常值。您可以检查具有高残差的案例,看看它是否存在问题(最简单的是数据输入错误),但您必须根据实质性理由证明您的删除是合理的。

  2. 假设没有充分的理由删除该观察,您可以在有或没有它的情况下运行回归,看看参数估计是否有任何大的差异;如果没有,您可以保留它并注意删除它几乎没有什么区别

  3. 如果它有很大的不同,那么你可以尝试鲁棒回归,它处理异常值或分位数回归,它不对残差的分布做任何假设。我是分位数回归的粉丝,我认为它没有得到充分利用。

@PeterFlom 在这里提出了一些好的观点。我同意他的三点和他的行动计划。让我澄清一个剩余的问题:

您正确地注意到只有残差需要正态分布。但是,@dsaxton 也是正确的,在现实世界中,没有数据(包括残差)是完全正常的。因此,您真正需要的是“足够正常”的残差。如果误差的总体分布非常接近正常值(一旦考虑了异常值,您的 qq 图就暗示了这一点),那么中心极限定理意味着您的 beta 的抽样分布将收敛到正常值N增加。因此,尽管即使排除了异常值,您的数据仍然几乎很重要,但我认为您可以按照@PeterFlom 的建议进行操作。您可能有兴趣阅读这个出色的 CV 主题: 正态性测试“基本上没用”吗?