为OLS“复制”数据集的后果是什么?

机器算法验证 回归 最小二乘 直觉
2022-03-15 07:45:21

假设我有一个随机样本假设这个样本满足高斯马尔可夫假设,这样我就可以构造一个 OLS 估计器,其中{Xi,Yi}i=1n

β^1OLS=Cov(X,Y)Var(X)
β^0OLS=Y¯X¯β^1OLS

对中的每一对都有一个精确的副本n (Xi,Yi)

我的问题

这对我使用 OLS 的能力有何影响?它仍然是一致的和确定的吗?

2个回答

您是否有充分的理由进行加倍(或重复?)这在统计上没有多大意义,但看看代数发生了什么仍然很有趣。在矩阵形式中,你的线性模型是 最小二乘估计是 和方差矩阵是“数据加倍”意味着被替换为并且被替换为 然后普通最小二乘估计量变为

Y=Xβ+E,
β^ols=(XTX)1XTYVβ^ols=σ2(XtX)1Y(YY)X(XX)
((XX)T(XX))1(XX)T(YY)=(xTX+XTX)1(XTY+XTY)=(2XTX)12XTY=β^ols
所以计算的估计量根本不会改变。但是计算出来的方差矩阵是错误的:使用与上面相同的代数,我们得到方差矩阵,是正确值的一半。结果是置信区间将缩小与的因子。σ22(XTX)112

原因是我们计算得好像我们仍然有 iid 数据,这是不正确的:这对加倍的值显然具有等于的相关性。如果我们考虑到这一点并正确使用加权最小二乘,我们将找到正确的方差矩阵。1.0

由此,作为练习,将很容易发现倍增的更多后果,例如,R-squared 的值不会改变。

我对这个理论还不够熟悉,无法给你一个非常数学的答案,但直观地说,OLS 只关心存在不同情况的比例。当您回想起 OLS 选择最小化残差平方平均值的系数时,这是有道理的,并且平均值纯粹反映了其输入的比例(在某种意义上,(1,3,3)的平均值与具有一百万个 1 和两百万个 3 的数据集的平均值)。因此,将数据集加倍将获得相同的模型。


这是一个 R 示例,其中我们生成了一个随机回归问题,并注意到当数据加倍时系数没有变化:

nc = sample(1:10, 1, replace = T)
n = sample(11:500, 1, replace = T)
x = as.matrix(replicate(nc, rnorm(n)))
coef = rnorm(nc)
sd.resid = runif(1, 0, 5)

y = x %*% matrix(coef) + rnorm(n, sd = sd.resid)

print(cbind(
  coef(lm(y ~ x)),
  coef(lm(c(y, y) ~ rbind(x, x)))))

一次运行给了我:

                   [,1]        [,2]
(Intercept) -0.10002238 -0.10002238
x1          -2.14801619 -2.14801619
x2           0.23120764  0.23120764
x3           0.05360792  0.05360792
x4           1.91972198  1.91972198
x5          -1.09887264 -1.09887264
x6           0.04248358  0.04248358