试图了解拟合与残差图?

机器算法验证 回归 残差
2022-04-09 21:35:43

第一张图:残差与拟合图

一个好的残差与拟合图具有三个特征:

  • 残差在 0 线周围“随机反弹”。这表明关系是线性的假设是合理的。

  • 残差大致形成围绕 0 线的“水平带”。这表明误差项的方差是相等的。

  • 没有一个残差从残差的基本随机模式中“脱颖而出”。这表明没有异常值。

(来源:https ://onlinecourses.science.psu.edu/stat501/node/36 链接在 2019 年 1 月失效

特别是,我不确定第二点的水平带是什么意思。是图中的红色曲线吗?

那么第二点是关于同方差性的?

4个回答

根据 Draper 和 Smith 的应用回归分析(第 3 版,大约第 59 页)中的讨论,该残差图可用于检查模型假设中的违规情况,特别是与不正确的规范或异方差的存在相关。

在未检测到违规的情况下,该图可能如下所示。

在此处输入图像描述

请注意,残差随机分布在红色水平线内,沿着拟合值形成水平带。没有可见的模式,这表明我们的回归模型指定了结果和协变量之间的适当关系。YX

描述模型假设中可能违反的图是

在此处输入图像描述

其中具有特定宽度的水平带可能适用于数据的一部分,但可能不适用于拟合值的另一部分。在此示例中,数据的第一季度的方差(最多约为 40 的拟合值)小于大于 40 的拟合值的方差。拟合值的中间部分具有比外部值大得多的方差。这表明回归模型可能未能解释异方差性。

正如@ben-bolker 在他在链接问题中的评论中提到的那样,这个诊断图可能更适合检测规范中未包含的非线性关系。下面介绍了两个可重现的非线性关系模拟示例。(R 代码显示在帖子的底部)。

这里的第一个图重复了理想场景,其中回归规范充分模拟了潜在关系。在这种情况下,拟合残差图是Y=β0+β1X+ϵ

在此处输入图像描述

其中水平红线在 +- 2 处绘制。如第一个图所示,点或多或少位于此水平带中,并且没有残差大于 3(max(abs(regs[[1]]$residuals))返回 2.932835)。

在第二个示例中,结果变量与其协变量具有二次关系,但回归规范仅允许线性关系。在这里,拟合残差图显示了一个相当强的非线性符号,呈倒“U”形。的二阶项具有负相关关系Y=β0+β1X+β2X2XY

在此处输入图像描述

第三个示例提供了一个实例,其中与 X 具有线性关系,其中但模型未能考虑所需的转换。lnYY=exp(β0+β1x+ϵ)Y

在此处输入图像描述

在这里,该图表明了一个负面趋势,可能没有考虑到表明异方差性的漏斗形状。此外,具有极值的残差数量较多,500 个值中有 31 个大于 3,4 个在绘图窗口之外,值大致为(10.1、10.5、16.4 和 18.2)。这与@glenn-b 对上面@gung 链接的问题的回答中的非正常错误示例有关。

数据

set.seed(1234)

x <- rnorm(500)
x4 <- (.1 * x) + rnorm(500)
y1 <- 2 * x + rnorm(500)
y2 <- 2 * x + - (.5 * x^2) + rnorm(500)
y3 <- exp(.5 * x + rnorm(500))

# put data into dataframe to organize results
df <- data.frame(x, y1, y2, y3, y4)

# run regressions
regs <- lapply(df[-1], function(y) lm(y ~ x, data=df))

跟进@mdewey 的回答并略微不同意@jjet 的回答:左下角的比例位置图最适合评估同方差/异方差。两个原因:

  • 正如@mdewey 提出的那样:判断线的斜率是否比点云的扩展量更容易,并且更容易将非参数平滑线拟合到它以用于可视化目的
  • 拟合值分布不均匀的数据集(这本身没有问题)可以欺骗观察者相信存在异方差性,因为你的眼睛往往会挑出极端。因为更多的观察会导致更多的极端残差(在顺序统计的意义上),所以看起来有更多数据的范围会有更多的可变性。在这种情况下,拟合值的极端点较少,这使得看起来变异性在中间最高。比例位置图避免了这个问题。

如果您正在查看左上角的情节,那么是的。然而,你想要的最好的图是左下角,它折叠第一个中水平轴的残差,这样如果比例和位置之间没有关系,那么在该图上绘制的平滑线应该是水平的。在您的情况下,它看起来还不错,因为左手倾角可能只是由几个点驱动。

第二点最好使用左上图进行评估。基本上,您想检查残差的分布在 x 轴上的所有点是否相同。如果是,那么您将看到沿 x 轴水平移动的点带。这将表明几乎没有异方差性的证据。如果相反,当您从右向左移动时,点似乎会增加或减少,那么您可能会说“点带正在增加/减少”,而不是严格保持水平。点“带”的概念实际上只是指散点图的整体主观形状,而不是任何具体的东西。