机器算法验证 - 解释残差与拟合值图以验证线性模型的假设 - 吾爱随笔录

解释残差与拟合值图以验证线性模型的假设

机器算法验证回归残差假设

2022-02-02 13:22:22

考虑下图来自 Faraway's Linear Models with R (2005, p. 59)。

在此处输入图像描述

第一个图似乎表明残差和拟合值不相关，因为它们应该在具有正态分布误差的同方差线性模型中。因此，似乎表明残差和拟合值之间的依赖性的第二和第三图表明了不同的模型。

但是，正如 Faraway 所指出的，为什么第二个图建议使用异方差线性模型，而第三个图建议使用非线性模型？

第二个图似乎表明残差的绝对值与拟合值呈强正相关，而在第三个图中没有明显的这种趋势。因此，如果是这样的话，从理论上讲，在具有正态分布误差的异方差线性模型中

Cor (e, \hat{y}) = [\begin{array}{ccc} 1 & \dots & 1 \\ ⋮ & ⋱ & ⋮ \\ 1 & \dots & 1 \end{array}]

$\mbox{Cor}\left(\mathbf{e},\hat{\mathbf{y}}\right) = \left[\begin{array}{ccc}1 & \cdots & 1 \\ \vdots & \ddots & \vdots \\ 1 & \cdots & 1\end{array}\right]$

（左边的表达式是残差和拟合值之间的方差-协方差矩阵）这可以解释为什么第二个和第三个图与 Faraway 的解释一致。

但情况是这样吗？如果不是，那么法拉维对第二和第三情节的解释还有什么理由呢？另外，为什么第三个图必然表明非线性？它不可能是线性的，但是误差不是正态分布的，或者它们是正态分布的，但不以零为中心？

2个回答

下面是那些残差图，其中每个拟合值（以及）的近似均值和点分布（包括大多数值的限制）标记为 - 以粗略近似表示条件均值（红色）和条件均值（大约！）两倍的条件标准偏差（紫色）： $x$ $\pm$

带有近似平均值的诊断图，并在每个拟合值处展开

第二个图显示平均残差不随拟合值变化（因此不随变化），但残差的分布（以及因此关于拟合线的分布）随着拟合值（或）变化。也就是说，价差不是恒定的。异方差性。 $x$ $y$ $x$
第三个图显示，当拟合值较小时，残差大多为负，当拟合值居中时残差为正，当拟合值较大时残差为负。也就是说，散布近似恒定，但条件均值不是 - 拟合线没有描述变化时的行为，因为关系是弯曲的。 $y$ $x$

它不可能是线性的，但是误差不是正态分布的，或者它们是正态分布的，但不以零为中心？

不是真的*，在这些情况下，情节看起来与第三个情节不同。

(i) 如果误差是正常的但不是以零为中心，而是在处，那么截距将拾取平均误差，因此估计的截距将是的估计值（这将是它的期望值，但估计有误）。因此，您的残差仍然具有条件均值为零，因此该图看起来像上面的第一个图。 $\theta$ $\beta_0+\theta$

(ii) 如果误差不是正态分布的，那么点的模式可能在中心线以外的某个地方最密集（如果数据有偏差），但局部平均残差仍将接近 0。

非正常错误

这里的紫色线仍然代表（非常）大约 95% 的区间，但它不再是对称的。（我在掩饰几个问题，以避免模糊这里的基本观点。）

* 这不一定是不可能的——如果你有一个实际上不像错误的“错误”术语——说和以正确的方式与它们相关——你可能能够产生类似这样的模式。但是，我们对误差项做出假设，例如它与无关，并且均值为零；我们必须至少打破其中一些假设才能做到这一点。（在许多情况下，您可能有理由得出这样的结论：这种影响应该不存在或至少相对较小。） $x$ $y$ $x$

你写了

第二个图似乎表明残差的绝对值与拟合值呈强正相关，

它没有“似乎”，它确实。这就是异方差的意思。

然后你给出一个全为 1 的矩阵，这是无关紧要的；相关性可以存在并且小于1。

然后你写

另外，为什么第三个图必然表明非线性？它不可能是线性的，但是误差不是正态分布的，或者它们是正态分布的，但不以零为中心？

它们确实以 0 为中心。一半左右低于 0，一半高于 0。很难从这个图中判断它们是否正态分布，但通常推荐的另一个图是残差的分位数正态图，这将显示它们是否正常。

其它你可能感兴趣的问题

上一篇如果只对预测感兴趣，为什么要在山脊上使用套索？下一篇R中的时间序列“聚类”