残差如何与潜在的干扰相关?

机器算法验证 回归 最小二乘 残差 异方差 假设
2022-03-14 12:18:08

在最小二乘法中,我们要估计模型中的未知参数:

Yj=α+βxj+εj(j=1...n)

一旦我们这样做了(对于一些观察值),我们得到拟合的回归线:

Yj=α^+β^x+ej(j=1,...n)

现在显然我们要检查一些图以确保满足假设。假设您要检查同方差性,但是,要做到这一点,我们实际上是在检查残差假设您检查残差与预测值图,如果这表明异方差是明显的,那么这与扰动项有什么关系?残差中的异方差是否意味着干扰项中的异方差? ejεj

2个回答

之间的关系ε^ε是:

ε^=(IH)ε

在哪里H,帽子矩阵,是X(XTX)1XT.

也就是说ε^i是所有误差的线性组合,但通常大部分权重落在i-第一个。

这是一个示例,使用carsR 中的数据集。考虑用紫色标记的点:

在此处输入图像描述

让我们称之为点i. 残留物,ε^i0.98εi+jiwjεj, 其中wj因为其他误差在 -0.02 范围内:

在此处输入图像描述

我们可以将其重写为:

ε^i0.98εi+ηi

或更一般地说

ε^i=(1hii)εi+ηi

在哪里hii是个i-th 的对角元素H. 同样,wj以上是hij.

如果错误是 iidN(0,σ2)那么在这个例子中,这些其他误差的加权和将有一个标准偏差,对应于大约 1/7 的误差影响i对其残差的观察。

也就是说,在表现良好的回归中,残差大多可以被视为对不可观察误差项的中等噪声估计。当我们考虑离中心更远的点时,事情会变得不太好(残差对错误的权重变得更小,而其他错误的权重变得更不均匀)。

有很多参数,或者有X的分布不是很好,残差可能不像错误那么好。您可能想尝试一些示例。

考虑它的最简单方法是您的原始残差 ( ) 是对相应干扰 ( e_j ) 的估计。但是,还有一些额外的复杂性。例如,尽管我们在标准 OLS 模型中假设误差/干扰是独立的,但残差不可能都是独立的。一般来说,只有残差可以是独立的,因为您在估计平均模型时使用个自由度,并且残差的总和被限制为ej=yjy^jε^j=ejNp1p10. 此外,原始残差的标准偏差实际上并不是恒定的。一般来说,回归线的拟合使得它平均更接近那些具有更大杠杆作用的点。因此,这些点的残差标准差小于低杠杆点的标准差。(有关这方面的更多信息,阅读可能会有所帮助:解释 plot.lm()和/或此处:如何在线性回归中对二元/二分独立预测变量执行残差分析?