机器算法验证 - 残差如何与潜在的干扰相关？ - 吾爱随笔录

残差如何与潜在的干扰相关？

机器算法验证回归最小二乘残差异方差假设

2022-03-14 12:18:08

在最小二乘法中，我们要估计模型中的未知参数：

Y_{j} = α + β x_{j} + ε_{j} (j = 1... n)

$Y_j = \alpha + \beta x_j + \varepsilon_j \enspace (j=1...n)$

一旦我们这样做了（对于一些观察值），我们得到拟合的回归线：

Y_{j} = \hat{α} + \hat{β} x + e_{j} (j = 1, . . . n)

$Y_j = \hat{\alpha} + \hat{\beta}x +e_j \enspace (j =1,...n)$

现在显然我们要检查一些图以确保满足假设。假设您要检查同方差性，但是，要做到这一点，我们实际上是在检查残差。假设您检查残差与预测值图，如果这表明异方差是明显的，那么这与扰动项有什么关系？残差中的异方差是否意味着干扰项中的异方差？ $e_j$ $\varepsilon_j$

2个回答

之间的关系 $\hat{\varepsilon}$ 和 $\varepsilon$ 是：

\hat{ε} = (I - H) ε

$\hat{\varepsilon} = (I-H) \varepsilon$

在哪里 $H$ ，帽子矩阵，是 $X(X^TX)^{-1}X^T$ .

也就是说 $\hat{\varepsilon}_i$ 是所有误差的线性组合，但通常大部分权重落在 $i$ -第一个。

这是一个示例，使用carsR 中的数据集。考虑用紫色标记的点：

在此处输入图像描述

让我们称之为点 $i$ . 残留物， $\hat{\varepsilon}_i\approx 0.98\varepsilon_i +\sum_{j\neq i} w_j \varepsilon_j$ , 其中 $w_j$ 因为其他误差在 -0.02 范围内：

在此处输入图像描述

我们可以将其重写为：

$\hat{\varepsilon}_i\approx 0.98\varepsilon_i +\eta_i$

或更一般地说

$\hat{\varepsilon}_i= (1-h_{ii})\varepsilon_i +\eta_i$

在哪里 $h_{ii}$ 是个 $i$ -th 的对角元素 $H$ . 同样， $w_j$ 以上是 $h_{ij}$ .

如果错误是 iid $N(0,\sigma^2)$ 那么在这个例子中，这些其他误差的加权和将有一个标准偏差，对应于大约 1/7 的误差影响 $i$ 对其残差的观察。

也就是说，在表现良好的回归中，残差大多可以被视为对不可观察误差项的中等噪声估计。当我们考虑离中心更远的点时，事情会变得不太好（残差对错误的权重变得更小，而其他错误的权重变得更不均匀）。

有很多参数，或者有 $X$ 的分布不是很好，残差可能不像错误那么好。您可能想尝试一些示例。

考虑它的最简单方法是您的原始残差 ( ) 是对相应干扰 ( e_j ) 的估计。但是，还有一些额外的复杂性。例如，尽管我们在标准 OLS 模型中假设误差/干扰是独立的，但残差不可能都是独立的。一般来说，只有残差可以是独立的，因为您在估计平均模型时使用个自由度，并且残差的总和被限制为 $e_j = y_j-\hat y_j$ $\hat\varepsilon_j = e_j$ $N-p-1$ $p-1$ $0$ . 此外，原始残差的标准偏差实际上并不是恒定的。一般来说，回归线的拟合使得它平均更接近那些具有更大杠杆作用的点。因此，这些点的残差标准差小于低杠杆点的标准差。（有关这方面的更多信息，阅读可能会有所帮助：解释 plot.lm()和/或此处：如何在线性回归中对二元/二分独立预测变量执行残差分析？）

其它你可能感兴趣的问题

上一篇测试数据是否遵循 T 分布下一篇R 中的 auto.arima 是否应该报告比其他模型具有更高 AIC、AICC 和 BIC 的模型？