一个好的残差与拟合图具有三个特征:
残差在 0 线周围“随机反弹”。这表明关系是线性的假设是合理的。
残差大致形成围绕 0 线的“水平带”。这表明误差项的方差是相等的。
没有一个残差从残差的基本随机模式中“脱颖而出”。这表明没有异常值。
(来源:https ://onlinecourses.science.psu.edu/stat501/node/36 链接在 2019 年 1 月失效)
特别是,我不确定第二点的水平带是什么意思。是图中的红色曲线吗?
那么第二点是关于同方差性的?
一个好的残差与拟合图具有三个特征:
残差在 0 线周围“随机反弹”。这表明关系是线性的假设是合理的。
残差大致形成围绕 0 线的“水平带”。这表明误差项的方差是相等的。
没有一个残差从残差的基本随机模式中“脱颖而出”。这表明没有异常值。
(来源:https ://onlinecourses.science.psu.edu/stat501/node/36 链接在 2019 年 1 月失效)
特别是,我不确定第二点的水平带是什么意思。是图中的红色曲线吗?
那么第二点是关于同方差性的?
根据 Draper 和 Smith 的应用回归分析(第 3 版,大约第 59 页)中的讨论,该残差图可用于检查模型假设中的违规情况,特别是与不正确的规范或异方差的存在相关。
在未检测到违规的情况下,该图可能如下所示。
请注意,残差随机分布在红色水平线内,沿着拟合值形成水平带。没有可见的模式,这表明我们的回归模型指定了结果和协变量之间的适当关系。
描述模型假设中可能违反的图是
其中具有特定宽度的水平带可能适用于数据的一部分,但可能不适用于拟合值的另一部分。在此示例中,数据的第一季度的方差(最多约为 40 的拟合值)小于大于 40 的拟合值的方差。拟合值的中间部分具有比外部值大得多的方差。这表明回归模型可能未能解释异方差性。
正如@ben-bolker 在他在链接问题中的评论中提到的那样,这个诊断图可能更适合检测规范中未包含的非线性关系。下面介绍了两个可重现的非线性关系模拟示例。(R 代码显示在帖子的底部)。
这里的第一个图重复了理想场景,其中回归规范充分模拟了潜在关系。在这种情况下,拟合残差图是
其中水平红线在 +- 2 处绘制。如第一个图所示,点或多或少位于此水平带中,并且没有残差大于 3(max(abs(regs[[1]]$residuals))
返回 2.932835)。
在第二个示例中,结果变量与其协变量具有二次关系,但回归规范仅允许线性关系。在这里,拟合残差图显示了一个相当强的非线性符号,呈倒“U”形。的二阶项具有负相关关系。
第三个示例提供了一个实例,其中与 X 具有线性关系,其中但模型未能考虑所需的转换。
在这里,该图表明了一个负面趋势,可能没有考虑到表明异方差性的漏斗形状。此外,具有极值的残差数量较多,500 个值中有 31 个大于 3,4 个在绘图窗口之外,值大致为(10.1、10.5、16.4 和 18.2)。这与@glenn-b 对上面@gung 链接的问题的回答中的非正常错误示例有关。
数据
set.seed(1234)
x <- rnorm(500)
x4 <- (.1 * x) + rnorm(500)
y1 <- 2 * x + rnorm(500)
y2 <- 2 * x + - (.5 * x^2) + rnorm(500)
y3 <- exp(.5 * x + rnorm(500))
# put data into dataframe to organize results
df <- data.frame(x, y1, y2, y3, y4)
# run regressions
regs <- lapply(df[-1], function(y) lm(y ~ x, data=df))
跟进@mdewey 的回答并略微不同意@jjet 的回答:左下角的比例位置图最适合评估同方差/异方差。两个原因:
如果您正在查看左上角的情节,那么是的。然而,你想要的最好的图是左下角,它折叠第一个中水平轴的残差,这样如果比例和位置之间没有关系,那么在该图上绘制的平滑线应该是水平的。在您的情况下,它看起来还不错,因为左手倾角可能只是由几个点驱动。
第二点最好使用左上图进行评估。基本上,您想检查残差的分布在 x 轴上的所有点是否相同。如果是,那么您将看到沿 x 轴水平移动的点带。这将表明几乎没有异方差性的证据。如果相反,当您从右向左移动时,点似乎会增加或减少,那么您可能会说“点带正在增加/减少”,而不是严格保持水平。点“带”的概念实际上只是指散点图的整体主观形状,而不是任何具体的东西。