残差分析:散点图的解释

机器算法验证 r 回归 多重回归 最小二乘 残差
2022-03-31 23:35:33

我在解释多元线性回归(OLS 方法)中的散点图时遇到问题。我在下面发布了标准化残差与因变量 (C) 预测值的散点图的图像。

我的问题是:在这张图中,我可以假设我的线性回归模型是好的吗?残差的处置是可疑的,这通常是变量之间非线性关系的痕迹。你觉得我的案子怎么样?谢谢大家。在此处输入图像描述

编辑:这里是数据集 https://mega.nz/#!ehtEERJA!_3OMnu2GutFmM9R9fZjfQIthF7bzCNMaT_g1Q2033ko

C是因变量,其他变量是独立变量。Durbin Watson stat: 1,241603582 Shapiro-Wilk 检验表明残差呈正态分布

编辑2:这是残差的qq图 在此处输入图像描述

2个回答

不,这看起来不太好。您似乎遇到了异方差性问题,因为随着预测值的增加,残差的方差也在增加。恒定方差是 OLS 回归进行有效推理的重要条件。这可以通过对响应变量进行日志转换来解决。

还有一点自相关的迹象,但是用这么少的数据点很难评估。

编辑,下载数据后:

对数转换 C 有助于异方差性,尽管数据点很少,所以我建议谨慎:虽然它似乎对这些数据有帮助,但如果有更多的观察,情况可能并非如此。可能还有其他应该考虑的非线性。

在此处输入图像描述

但是,您所有的自变量都相互高度相关,这对于模型解释来说根本不好

      years    Y    W  SSW    G    T   TR    D
years  1.00 0.95 0.96 0.96 0.98 0.98 1.00 0.98
Y      0.95 1.00 0.99 0.95 0.97 0.98 0.95 0.87
W      0.96 0.99 1.00 0.97 0.98 0.98 0.96 0.89
SSW    0.96 0.95 0.97 1.00 0.98 0.97 0.97 0.93
G      0.98 0.97 0.98 0.98 1.00 0.99 0.99 0.95
T      0.98 0.98 0.98 0.97 0.99 1.00 0.98 0.93
TR     1.00 0.95 0.96 0.97 0.99 0.98 1.00 0.98
D      0.98 0.87 0.89 0.93 0.95 0.93 0.98 1.00

起初,在我看来,您的残差看起来像是异方差(非恒定方差)、自相关(非独立)和非正态分布。这些实际上是无论如何都可以解决的问题。事实证明,你测试了你的残差,他们似乎在所有这些方面都做得很好。然而,与 Long 发现的多重共线性问题相比,这些问题是微不足道的。您所有的自变量都与介于 0.9 和 1.0 之间的正相关系数高度相关。多重共线性是一个大问题。你表示不是很在意。但是,你应该。这个问题不是一厢情愿就可以解决的。而且,记录变量肯定不能解决这个问题。它实际上可能会加剧它。多重共线性的一个症状是变量的回归系数可能非常不稳定。通过省略一些数据来重新运行回归以测试系数的稳定性。它们可能非常不稳定。另一个症状是您的某些变量的统计显着性可能存在问题。在一个模型中拥有 8 个高度相关的自变量是没有意义的。它们只是在解释因变量的方差(或行为)方面向您的模型提供几乎完全相同类型的信息。另一个症状是您的某些变量的统计显着性可能存在问题。在一个模型中拥有 8 个高度相关的自变量是没有意义的。它们只是在解释因变量的方差(或行为)方面向您的模型提供几乎完全相同类型的信息。另一个症状是您的某些变量的统计显着性可能存在问题。在一个模型中拥有 8 个高度相关的自变量是没有意义的。它们只是在解释因变量的方差(或行为)方面向您的模型提供几乎完全相同类型的信息。

我认为您需要首先选择一个您拥有的最佳时间导向自变量来重建此模型。然后添加其他提供时间以外信息的变量。您可以添加到该模型中而不会遇到过多的多重共线性问题的一种面向时间的变量是季节性虚拟变量。但是,这不是一个确定的事情。您必须对此进行测试(多重共线性位)。