多元线性回归置信区间方差项的含义

机器算法验证 回归 置信区间 毫秒
2022-04-14 07:54:55

我目前正在努力计算方程中方差项的含义,用于计算 MLR 的平均响应的方差和置信区间: (这两个公式均取自 Myers、Montgomery、Anderson-Cook,“Response Surface Methodology”第四版,第 33-34 页)σ

Var[y^(x0)]=σ2x0(XX)1x0
y^(x0)tα/2,df(error)σ^2x0(XX)1x0
μy|x0y^(x0)+tα/2,df(error)σ^2x0(XX)1x0.

1)是代表我的数据的方差,还是代表我的 Errors 的方差?σ2

通常使用 MSE 作为的估计量,因此使用我的误差的方差而不仅仅是数据的方差。σ2

2)如果我已经进行了测量系统分析(MSA),我可以使用计算出的方差值而不是回归的 MSE,因为它会是一个更好的估计器?

2个回答

MSE 测量误差的方差。需要明确的是——这是模型误差的方差,而不是数据的方差。您可以通过查看看到这一点。给出观测值和拟合值之间的平方差。来拟合线性回归模型从高斯-马尔可夫定理,我们知道最小化(即使用“普通最小二乘”估计量)给出系数的最佳线性无偏估计量,其中“最佳”意味着具有最低方差的估计量。SSE=(yif(xi))2SSEMSEMSE

因此用于计算 OLS 回归模型的算法取决于的使用,它估计模型误差的方差(而不是数据的方差),给出模型系数的最佳线性无偏估计量(假设假设回归,期望为 0 且方差相等的不相关误差得到满足)。因此,没有一种直接的方法可以交换不同的方差估计,而且它可能不是您想要的(同样,数据方差与模型误差方差)。此外,使用不同的方法将导致估计系数不比通过 OLS 回归(基于 MSE)获得的系数更好。MSE

是回归模型中的误差方差,您帖子中的方差结果是 OLS 系数估计器的潜在方差的结果:σ2=V(εi)

V(β^)=σ2(xTx)1.

由于你可以使用随机向量方差的普通规则来获得y^(x0)=x0Tβ^

V(y^(x0))=V(x0Tβ^)=x0TV(β^)x0=σ2x0T(xTx)1x0.

然后,置信区间的公式来自以下关键量:

y^(x0)μ0σ^/dfResStudent's T(dfRes),

其中是线性回归中的标准偏差校正 MLE。现在,如果你愿意,没有什么特别的理由不能用不同的估计量来代替它,但请记住,它可能会改变你用来形成置信区间的关键数量的分布。因此,如果您想替换不同的估算器,您需要做的是看看这将如何影响新创建数量的分布。许多方差估计器具有渐近卡方分布(通过 CLT),因此您最终可能会得到相同的分布,因此置信区间的形式也相同,但您仍应检查这一点。μ0=E(y(x0))σ^σ