如何理解回归分析中的标准化残差?

机器算法验证 回归 残差
2022-03-13 23:56:08

根据Regression Analysis by Example,残差是响应值和预测值的差,所以说每个残差都有不同的方差,所以我们需要考虑标准化残差。

但是方差是针对一组值的,单个值怎么会有方差呢?

1个回答

我会说从概率分布中随机抽取的单个数字(例如残差)是已实现的值,而不是随机变量同样,我会说N残差,根据您的数据和您的模型拟合计算e=yy^, 是一组已实现的值。这组数字可能被松散地概念化为从基础分布中独立抽取ϵ~N(μ,σ2). (不幸的是,这里还有几个额外的复杂性。例如,您实际上没有N独立的信息,因为残差,e, 必须满足两个条件: ei=0, 和xiei=0.)

现在,给定一组数字,无论是残差还是其他,它们确实存在方差,(eie¯)2/N,但这是无趣的。我们关心的是能够说明数据生成过程(例如,估计总体分布的方差)。使用前面的公式,我们可以通过替换N具有剩余自由度,但这可能不是一个好的近似值。这是一个很快就会变得非常复杂的话题,但有几个可能的原因可能是异方差性(即总体的方差在不同的x),以及异常值的存在(即,给定的残差完全来自不同的总体)。几乎可以肯定,在实践中,您将无法估计从中抽取异常值的总体的方差,但从理论上讲,它确实存在方差。我怀疑作者的想法是这样的,但是,我应该注意我没有读过那本书。

更新: 重读问题后,我怀疑引用可能指的是x- 一个点的值会影响拟合的回归线,从而影响与该点相关的残差值。这里要掌握的关键思想是杠杆作用我在这里的回答中讨论了这些主题: 解释 plot.lm()