假设我有一个随机样本。假设这个样本满足高斯马尔可夫假设,这样我就可以构造一个 OLS 估计器,其中
对中的每一对都有一个精确的副本。
我的问题
这对我使用 OLS 的能力有何影响?它仍然是一致的和确定的吗?
假设我有一个随机样本。假设这个样本满足高斯马尔可夫假设,这样我就可以构造一个 OLS 估计器,其中
对中的每一对都有一个精确的副本。
这对我使用 OLS 的能力有何影响?它仍然是一致的和确定的吗?
您是否有充分的理由进行加倍(或重复?)这在统计上没有多大意义,但看看代数发生了什么仍然很有趣。在矩阵形式中,你的线性模型是
最小二乘估计是 和方差矩阵是。“数据加倍”意味着被替换为并且被替换为 。然后普通最小二乘估计量变为
原因是我们计算得好像我们仍然有 iid 数据,这是不正确的:这对加倍的值显然具有等于的相关性。如果我们考虑到这一点并正确使用加权最小二乘,我们将找到正确的方差矩阵。
由此,作为练习,将很容易发现倍增的更多后果,例如,R-squared 的值不会改变。
我对这个理论还不够熟悉,无法给你一个非常数学的答案,但直观地说,OLS 只关心存在不同情况的比例。当您回想起 OLS 选择最小化残差平方平均值的系数时,这是有道理的,并且平均值纯粹反映了其输入的比例(在某种意义上,(1,3,3)的平均值与具有一百万个 1 和两百万个 3 的数据集的平均值)。因此,将数据集加倍将获得相同的模型。
这是一个 R 示例,其中我们生成了一个随机回归问题,并注意到当数据加倍时系数没有变化:
nc = sample(1:10, 1, replace = T)
n = sample(11:500, 1, replace = T)
x = as.matrix(replicate(nc, rnorm(n)))
coef = rnorm(nc)
sd.resid = runif(1, 0, 5)
y = x %*% matrix(coef) + rnorm(n, sd = sd.resid)
print(cbind(
coef(lm(y ~ x)),
coef(lm(c(y, y) ~ rbind(x, x)))))
一次运行给了我:
[,1] [,2]
(Intercept) -0.10002238 -0.10002238
x1 -2.14801619 -2.14801619
x2 0.23120764 0.23120764
x3 0.05360792 0.05360792
x4 1.91972198 1.91972198
x5 -1.09887264 -1.09887264
x6 0.04248358 0.04248358