多元线性回归中的非正态性

机器算法验证 多重回归
2022-03-23 13:45:47

我试图找出要在我的模型中包含哪些回归量并评估我的模型的充分性。我知道我的数据有偏差。我的问题是: 我应该先进行转型还是先进行模型选择?

在此处输入图像描述

当我拟合完整模型时,我似乎有误差的非恒定方差并且也偏离正态性。我已经应用了响应变量的对数转换:这消除了错误的非恒定性,但在 qqplot 中增加了曲率。我想将我的模型用于频率论预测和贝叶斯预测。我知道偏离常态会导致不准确的预测结果。 我应该如何处理非正态性?

我进行了夏皮罗测试 - 它已被拒绝,因此我得出结论,有足够的证据表明数据不正常。

在此处输入图像描述

编辑:我的样本量是 250。我可以忽略非正态性,因为我有很多观察结果吗?

响应变量是薪水: 在此处输入图像描述

编辑 2:添加了变量图(Whuber 建议)

据我所知,添加的变量图用于检测观察的不成比例的影响。我在这里没有看到任何可以解释或暗示所指示的双峰的可疑之处。

我在这里错过了什么吗?

在此处输入图像描述

3个回答

好的,有几件事。

1)我总是建议不要使用正常测试。他们回答了一个您已经知道答案的问题,即“您的数据正常吗?” (答案是否定的,因为没有什么是正常的)与问题“缺乏正常性会成为问题吗?” 这是您应该感兴趣的问题。

2) 正态性假设与其说是预测性能,不如说是您将执行的推理的正确性(假设检验和置信区间)。

3) 偏离正态性是可以的,因为我们有使测试统计数据趋于正态的渐近线。

4)你的QQ图看起来并不严重不正常(虽然你的残差可能有一些双峰。你可能想检查是否有遗漏的变量或其他东西)。正如另一位评论者所说,常态是一种可能会失败的常态(可能与它有轻度 - 中度偏差)。

5)所以回答你的问题

(i) 是的,您首先进行对数转换(或其他一些转换)。

(ii) 一旦你转换你的变量,非正态性编辑可能值得一看,看看为什么残差似乎在两个不同的集群中。

注意:线性回归没有假设响应变量是正态分布的。相反,它假设残差需要是正态分布的(参见高斯-马尔可夫定理)。此外,这个假设是“最不重要的”,即可以违反,模型将“正常”工作。

它们是不同的,一个是边际分布,另一个是条件分布。可以在此处找到详细示例:为什么线性回归对残差有假设但广义线性模型对响应有假设?

至少在您分析的这个阶段,我不会担心正常性。尝试对因变量使用对数转换。薪水是对数转换的良好候选者。这消除了偏斜,然后你会很好地继续分析。