检查线性回归假设的残差类型

机器算法验证 回归 残差
2022-03-04 05:56:37

在检查线性模型的假设时,我想更好地理解一些通常用于选择一种或另一种残差类型的建议。

  • 让我们将原始残差定义为经典误差ϵ^i=y^iyi
  • 标准化残差定义ϵ^iσ^1hii
  • 学生化残差由ϵ^iσ(i)^1hii

例如,在检查异常值时,我完全理解为什么标准化或学生化残差比原始残差更可取。但对于其他“适配后检查”,我并不总是看到区别。以下是我的问题:

  1. 在检查误差的正态性时,使用一种残差或另一种残差有什么区别吗?一些作者使用原始残差与理论正态分位数的 QQ 图,其他作者推荐学生化残差与理论分位数的 QQ 图,但这听起来与我相当。(我无法想象这两个情节会导致不同结论的任何情况。)t

  2. 在检查常数方差时,我们经常可以读到使用标准化或学生化残差比使用原始残差要好一些。我猜这是因为,即原始残差的方差在构造上不是恒定的?因此,如果对原始残差(根据拟合值绘制)的快速目视检查显示出轻微的异方差性,我们无法真正知道它是来自原始残差的固有非恒定方差还是来自数据中的真实现象?这是原因吗?V(ϵ^)=σ2(IPX)

  3. 除了自相关检查之外,是否有任何理由更喜欢学生化残差而不是标准化残差(对于正态性、异方差性和异常值检查)?

1个回答
  1. 根据我的经验,在评估残差的正态性时,您不应得出不同的结论。

  2. 一些作者指出标准化残差 z >|2.00| 应该评估。但是,请注意,标准化残差 (ZRESID) 的计算基于一个普遍站不住脚的假设,即所有残差都具有相同的方差。为避免做出这种假设,建议使用学生化残差 (SRESID)。本质上,您可以通过将每个残差除以其估计的标准偏差来实现这一点。

  3. 坦率地说,我不确定,但我想添加一些注释以供考虑。就自相关而言:通常只有在您的观察结果具有某种顺序(例如时间、距离)时,对其进行测试才有意义。此外,在检查异常值和有影响的案例时,您可能会考虑改用 Cook 的 D(距离)(Cook,1977)。该度量旨在识别有影响的观察值或异常值,其影响是由于其对自变量、因变量或两者的状态所致。

参考:

库克,RD(1977 年)。在线性回归中检测有影响的观察。技术计量学,19(1), 15-18。

佩达祖尔,EJ (1997)。行为研究中的多元回归:解释和预测。汤普森学习。公司:纽约,纽约。