我对线性回归的假设有点困惑。
到目前为止,我检查了是否:
- 所有解释变量都与响应变量线性相关。(情况就是这样)
- 解释变量之间存在共线性。(几乎没有共线性)。
- 我的模型的数据点的库克距离低于 1(就是这种情况,所有距离都低于 0.4,所以没有影响点)。
- 残差是正态分布的。(情况可能并非如此)
但我随后阅读了以下内容:
经常出现违反正态性的原因是(a)因变量和/或自变量的分布本身是显着非正态的,和/或(b)违反了线性假设。
问题 1 这听起来好像自变量和因变量需要正态分布,但据我所知,情况并非如此。我的因变量以及我的一个自变量不是正态分布的。他们应该是吗?
问题 2 我的残差 QQ 正态图如下所示:
这与正态分布略有不同,并且shapiro.test
也拒绝了残差来自正态分布的零假设:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
残差与拟合值如下所示:
如果我的残差不是正态分布的,我该怎么办?这是否意味着线性模型完全没用?