为什么我们使用残差来检验回归误差的假设?

机器算法验证 回归 残差 错误
2022-03-10 07:58:34

假设我们有一个模型Yi=β0+β1Xi1+β2Xi2++βkXik+ϵi

回归有许多假设,例如误差应该是正态分布的,均值为零且方差恒定。我被教导使用正态 QQ 图来检查这些假设,以测试残差的正态性,并使用残差与拟合图来检查残差是否在零附近变化且方差恒定。ϵiei=YiY^i

然而,这些测试都是基于残差,而不是错误。

据我了解,误差被定义为每个观察值与其“真实”平均值的偏差。所以,我们可以写成我们无法观察到这些错误。*ϵi=YiE[Yi]

我的问题是:残差在模仿错误方面做得如何?

如果假设似乎满足残差,这是否意味着它们也满足误差?是否有其他(更好的)方法来测试假设,例如将模型拟合到测试数据集并从那里获取残差?


* 此外,这是否不需要正确指定模型也就是说,响应确实以模型指定的方式X1,X2,

如果我们缺少一些预测变量(比如),那么期望甚至都不是真正的均值,对不正确模型的进一步分析似乎毫无意义。Xk+1 to XpE[Yi]=β0+β1Xi1+β2Xi2++βkXik

我们如何检查模型是否正确?

2个回答

残差是我们对误差项的估计

这个问题的简短回答相对简单:回归模型中的假设是关于误差项行为的假设,残差是我们对误差项的估计。 事实上,对观察到的残差行为的检查告诉我们关于误差项的假设是否合理。

要更详细地理解这一一般推理路线,有助于详细检查标准回归模型中残差的行为。在具有独立同方差正态误差项的标准多元线性回归下,残差向量的分布是已知的,这使您可以测试回归模型中的基本分布假设。基本思想是在回归假设下找出残差向量的分布,然后检查残差值是否合理地匹配这个理论分布。与理论残差分布的偏差表明,误差项的基本假设分布在某些方面是错误的,

如果您对标准回归模型使用基本误差分布并且对系数使用 OLS 估计,则残差的分布可以显示为多元正态分布:ϵiIID N(0,σ2)

r=(Ih)ϵN(0,σ2(Ih)),

其中是回归的帽子矩阵残差向量模仿误差向量,但方差矩阵有额外的乘法项为了测试回归假设,我们使用具有边际 T 分布的学生化残差:h=x(xTx)1xTIh

siriσ^Ext(1li)T(dfRes1).

(此公式适用于外部学生化残差,其中方差估计器不包括所考虑的变量。值是杠杆值,它们是帽子矩阵中的对角线值。学生化残差不是独立,但如果很大,它们接近独立。这意味着边际分布是一个简单的已知分布,但联合分布是复杂的。)现在,如果极限存在,则可以证明系数估计量是真实回归系数的一致估计量,残差是回归系数的一致估计量真正的错误术语。li=hi,inlimn(xTx)/n=Δ

本质上,这意味着您通过将学生化残差与 T 分布进行比较来测试误差项的潜在分布假设。误差分布的每个基本属性(线性、同方差、不相关误差、正态性)都可以通过使用学生化残差分布的类似属性来测试。如果模型被正确指定,那么对于较大,残差应该接近真实的误差项,并且它们具有相似的分布形式。n

从回归模型中省略解释变量会导致系数估计中的变量偏差,这会影响残差分布。残差向量的均值和方差都受到遗漏变量的影响。如果回归中省略的项是那么残差向量变为如果省略矩阵中的数据向量是 IID 法向量并且独立于误差项,则Zδr=(Ih)(Zδ+ϵ)ZZδ+ϵN(μ1,σ2I)使得残差分布变为:

r=(Ih)(Zδ+ϵ)N(μ(Ih)1,σ2(Ih)).

如果模型中已经存在截距项(即,如果单位向量在设计矩阵中)则1(Ih)1=0,这意味着保留了残差的标准分布形式。如果模型中没有截距项,则省略的变量可能会给出残差的非零均值。或者,如果遗漏变量不是 IID 正态分布,则它可能导致与标准残差分布的其他偏差。在后一种情况下,残差检验不太可能检测到因存在遗漏变量而导致的任何结果;通常不可能确定与理论残差分布的偏差是由于遗漏变量,还是仅仅因为与包含变量的不适定关系(并且可以说这些在任何情况下都是同一件事)。

通常,残差和误差这两个术语的含义相同。如果您的模型没有预测变量,则 E(Y) 确实是 Y 的平均值。对于预测变量(如在您的模型中),E(Y) 是从每个 X 预测的 Y 值。所以残差是每个观察到的差异并预测 Y。