线性回归中包含截距时的偏差估计

机器算法验证 回归 偏见 自回归的 嵌套模型
2022-03-21 06:37:05

我正在使用以下代码模拟 10000 个数据集,每个数据集长度为 20,它们遵循滞后 1 的自回归模型:

set.seed(1)
N = 20 
n.reps <- 10000
burn.in = 50
total <- N + burn.in
x <- matrix(NA, n.reps, total)
x[ , 1] <- 0.1
noise <- rnorm(n.reps*total, 0, 0.1)

for(j in 1:n.reps) 
  for(i in 2:total) 
   x[j, i] <- 0.5*x[j, i-1] + noise[j + i]

x <- x[ , -(1:burn.in) ]

然后我使用两个线性回归估计了每个观察到的路径的自回归系数(在这种情况下为 0.5):

res1 <- res2 <- numeric(n.reps) 

for(i in 1:n.reps)
{
res1[i] <- lm(x[i, 2:N] ~ -1 + I(x[i, 1:(N-1)]))$coef
res2[i] <- lm(x[i, 2:N] ~ I(x[i, 1:(N-1)]))$coef[2]
}

mean(res1) # 0.4687619
mean(res2) # 0.3845817

在第一行中,我拟合了正确的线性模型,而在第二行中,我包含了数据生成过程中不存在的截距。我希望这两种方法都能给我自回归系数的无偏估计,但看起来包括截距会使估计偏向下。随着样本量 N 的增加,偏差消失。

第二个线性模型嵌套了真实模型,因此我预计在拟合较大模型时估计值的方差会更高,但不会出现偏差。所以我的问题是:我做错了吗?谢谢!

1个回答

我的问题有一个错误:OLS 没有给出一个无偏估计的自回归系数一个R(p)过程!事实上,OLS 估计器偏向于零,如本文所述:

A. Maeshiro (2000),OLS 偏差的说明=λ-1+ü, J. 经济。教育,第一卷。31,没有。1, 76–80。

然后似乎包含截距会使事情变得更糟,因为估计更加有偏差。另外:OLS 是一致的,这就是偏见消失的原因ñ增加。