根据Regression Analysis by Example,残差是响应值和预测值的差,所以说每个残差都有不同的方差,所以我们需要考虑标准化残差。
但是方差是针对一组值的,单个值怎么会有方差呢?
根据Regression Analysis by Example,残差是响应值和预测值的差,所以说每个残差都有不同的方差,所以我们需要考虑标准化残差。
但是方差是针对一组值的,单个值怎么会有方差呢?
我会说从概率分布中随机抽取的单个数字(例如残差)是已实现的值,而不是随机变量。同样,我会说残差,根据您的数据和您的模型拟合计算, 是一组已实现的值。这组数字可能被松散地概念化为从基础分布中独立抽取~. (不幸的是,这里还有几个额外的复杂性。例如,您实际上没有独立的信息,因为残差,, 必须满足两个条件: , 和.)
现在,给定一组数字,无论是残差还是其他,它们确实存在方差,,但这是无趣的。我们关心的是能够说明数据生成过程(例如,估计总体分布的方差)。使用前面的公式,我们可以通过替换具有剩余自由度,但这可能不是一个好的近似值。这是一个很快就会变得非常复杂的话题,但有几个可能的原因可能是异方差性(即总体的方差在不同的),以及异常值的存在(即,给定的残差完全来自不同的总体)。几乎可以肯定,在实践中,您将无法估计从中抽取异常值的总体的方差,但从理论上讲,它确实存在方差。我怀疑作者的想法是这样的,但是,我应该注意我没有读过那本书。
更新: 重读问题后,我怀疑引用可能指的是- 一个点的值会影响拟合的回归线,从而影响与该点相关的残差值。这里要掌握的关键思想是杠杆作用。我在这里的回答中讨论了这些主题: 解释 plot.lm()。