残差是我们对误差项的估计
这个问题的简短回答相对简单:回归模型中的假设是关于误差项行为的假设,残差是我们对误差项的估计。 事实上,对观察到的残差行为的检查告诉我们关于误差项的假设是否合理。
要更详细地理解这一一般推理路线,有助于详细检查标准回归模型中残差的行为。在具有独立同方差正态误差项的标准多元线性回归下,残差向量的分布是已知的,这使您可以测试回归模型中的基本分布假设。基本思想是在回归假设下找出残差向量的分布,然后检查残差值是否合理地匹配这个理论分布。与理论残差分布的偏差表明,误差项的基本假设分布在某些方面是错误的,
如果您对标准回归模型使用基本误差分布并且对系数使用 OLS 估计,则残差的分布可以显示为多元正态分布:ϵi∼IID N(0,σ2)
r=(I−h)ϵ∼N(0,σ2(I−h)),
其中是回归的帽子矩阵。残差向量模仿误差向量,但方差矩阵有额外的乘法项。为了测试回归假设,我们使用具有边际 T 分布的学生化残差:h=x(xTx)−1xTI−h
si≡riσ^Ext⋅(1−li)∼T(dfRes−1).
(此公式适用于外部学生化残差,其中方差估计器不包括所考虑的变量。值是杠杆值,它们是帽子矩阵中的对角线值。学生化残差不是独立,但如果很大,它们接近独立。这意味着边际分布是一个简单的已知分布,但联合分布是复杂的。)现在,如果极限存在,则可以证明系数估计量是真实回归系数的一致估计量,残差是回归系数的一致估计量真正的错误术语。li=hi,inlimn→∞(xTx)/n=Δ
本质上,这意味着您通过将学生化残差与 T 分布进行比较来测试误差项的潜在分布假设。误差分布的每个基本属性(线性、同方差、不相关误差、正态性)都可以通过使用学生化残差分布的类似属性来测试。如果模型被正确指定,那么对于较大,残差应该接近真实的误差项,并且它们具有相似的分布形式。n
从回归模型中省略解释变量会导致系数估计中的变量偏差,这会影响残差分布。残差向量的均值和方差都受到遗漏变量的影响。如果回归中省略的项是那么残差向量变为。如果省略矩阵中的数据向量是 IID 法向量并且独立于误差项,则Zδr=(I−h)(Zδ+ϵ)ZZδ+ϵ∼N(μ1,σ2∗I)使得残差分布变为:
r=(I−h)(Zδ+ϵ)∼N(μ(I−h)1,σ2∗(I−h)).
如果模型中已经存在截距项(即,如果单位向量在设计矩阵中)则1(I−h)1=0,这意味着保留了残差的标准分布形式。如果模型中没有截距项,则省略的变量可能会给出残差的非零均值。或者,如果遗漏变量不是 IID 正态分布,则它可能导致与标准残差分布的其他偏差。在后一种情况下,残差检验不太可能检测到因存在遗漏变量而导致的任何结果;通常不可能确定与理论残差分布的偏差是由于遗漏变量,还是仅仅因为与包含变量的不适定关系(并且可以说这些在任何情况下都是同一件事)。