证明 OLS 回归中预测值的平均值等于原始值的平均值?

机器算法验证 回归 相关性 最小二乘 意思是
2022-04-20 05:43:16

https://en.wikipedia.org/wiki/Pearson_correlation_coefficient#In_least_squares_regression_analysis

我正在阅读此页面并发现一个事实,即 OLS 回归的预测目标值的平均值始终等于原始目标值的平均值。也就是说,对于预测值集合和原始值集合,均值的集合总是相等的。{Y^1,Y^2,...}{Y1,Y2,...}

是否有一个简单的证据证明为什么这完全正确?

3个回答

也就是说,对于预测值集合和原始值集合,均值的集合总是相等的。{Y^1,Y^2,...}{Y1,Y2,...}

预测值与原始值之差就是残差

Y^i=Yi+ri

所以你可以写

1n(Y^1+Y^2+...)=1n((Y1+r1)+(Y2+r2)+...)=1n(Y1+Y2+...)+1n(r1+r2+...)=1n(Y1+Y2+...)

如果该方法具有以下属性并且 OLS 就是这种情况,则最后一个等式为真。但请注意,只有当回归具有截距项时才会出现这种情况(正如 Christoph Hanck 的回答所解释的那样)。残差项垂直于回归量。如果截距是回归量之一(或更一般地,如评论中提到的 jld,如果它在回归量的列空间中),那么垂直度的结果是(r1+r2+...)=0(r1,r2,...)(1,1,...)=(r1+r2+...)=0


简单来说,您可以说平等地放置在之间,上下一样多,这就是它们具有相同平均值的原因。Y^Y

在矩阵表示法中,拟合值可以写为,投影矩阵,可以通过插入 OLS 估计器的定义来验证进入拟合值的公式y^=PyP=X(XX)1Xy^=Xβ^

他们的意思是,是一个向量, 的内积只是对元素求和,ι

ιPy/n,
ιιa=iai

一般来说,我们有,这可以通过直接乘法来验证。PX=X

现在,如果 包含,即,如果你的回归中有一个常数,我们有的列之一XιPι=ιPX=X

因此,通过的对称性(同样可以直接验证), 的平均值因此,如果我们的回归中有一个常数,则该陈述是正确的。它是 - 请参阅@jld 的评论 - 但是如果有的列可以组合成也是如此。例如,如果我们有详尽的虚拟变量但没有常数(以避免虚拟变量陷阱),就会出现这种情况。P

ιPy/n=ιy/n,
yXι

一个小数字说明:

y <- rnorm(20)
x <- rnorm(20)
lm_with_cst <- lm(y~x)
mean(y)
mean(fitted(lm_with_cst))
lm_without_cst <- lm(y~x-1)
mean(fitted(lm_without_cst))

输出:

> mean(y)
[1] 0.04139399

> mean(fitted(lm_with_cst))
[1] 0.04139399

> mean(fitted(lm_without_cst))
[1] 0.05660456

直观上很清楚。如果您有正确的模型作为线性回归,则残差应以均值零分布。如果对残差取平均值,则只剩下预测值。

例如,如果您的模型是

y=c+ax+ϵ ,

其中 是常数向量, 是系数向量, 是特征向量, 是高斯残差向量。caxϵ

当您将的期望值作为均值时,您会得到y

E(y)=E(c+ax+ϵ)=E(c+ax)=E(y^)

因为E(ϵ)=0因为残差的平均值为零。