https://en.wikipedia.org/wiki/Pearson_correlation_coefficient#In_least_squares_regression_analysis
我正在阅读此页面并发现一个事实,即 OLS 回归的预测目标值的平均值始终等于原始目标值的平均值。也就是说,对于预测值集合和原始值集合,均值的集合总是相等的。
是否有一个简单的证据证明为什么这完全正确?
https://en.wikipedia.org/wiki/Pearson_correlation_coefficient#In_least_squares_regression_analysis
我正在阅读此页面并发现一个事实,即 OLS 回归的预测目标值的平均值始终等于原始目标值的平均值。也就是说,对于预测值集合和原始值集合,均值的集合总是相等的。
是否有一个简单的证据证明为什么这完全正确?
也就是说,对于预测值集合和原始值集合,均值的集合总是相等的。
预测值与原始值之差就是残差
所以你可以写
如果该方法具有以下属性并且 OLS 就是这种情况,则最后一个等式为真。但请注意,只有当回归具有截距项时才会出现这种情况(正如 Christoph Hanck 的回答所解释的那样)。残差项垂直于回归量。如果截距是回归量之一(或更一般地,如评论中提到的 jld,如果它在回归量的列空间中),那么垂直度的结果是
简单来说,您可以说平等地放置在之间,上下一样多,这就是它们具有相同平均值的原因。
在矩阵表示法中,拟合值可以写为,投影矩阵,可以通过插入 OLS 估计器的定义来验证进入拟合值的公式。
他们的意思是,是一个向量,
的内积只是对元素求和,。
一般来说,我们有,这可以通过直接乘法来验证。
现在,如果 包含,即,如果你的回归中有一个常数,我们有的列之一。
因此,通过的对称性(同样可以直接验证),
的平均值。因此,如果我们的回归中有一个常数,则该陈述是正确的。它是 - 请参阅@jld 的评论 - 但是如果有的列可以组合成也是如此。例如,如果我们有详尽的虚拟变量但没有常数(以避免虚拟变量陷阱),就会出现这种情况。
一个小数字说明:
y <- rnorm(20)
x <- rnorm(20)
lm_with_cst <- lm(y~x)
mean(y)
mean(fitted(lm_with_cst))
lm_without_cst <- lm(y~x-1)
mean(fitted(lm_without_cst))
输出:
> mean(y)
[1] 0.04139399
> mean(fitted(lm_with_cst))
[1] 0.04139399
> mean(fitted(lm_without_cst))
[1] 0.05660456
直观上很清楚。如果您有正确的模型作为线性回归,则残差应以均值零分布。如果对残差取平均值,则只剩下预测值。
例如,如果您的模型是
,
其中 是常数向量, 是系数向量, 是特征向量, 是高斯残差向量。
当您将的期望值作为均值时,您会得到
因为因为残差的平均值为零。