我在线性回归中有一组预测变量,以及三个控制变量。这里的问题是,我感兴趣的变量之一只有在最终模型中包含控制变量时才具有统计意义。然而,控制变量本身在统计上并不显着。
这是我所有变量的多重共线性的样子(包括控制变量):
> vif(lm(return ~ EQ + EFF + SIZE + MOM + MSCR + UMP, data = as.data.frame(port.df)))
EQ EFF SIZE MOM MSCR UMP
3.687171 3.481672 2.781901 1.064312 1.438596 1.003408
> vif(lm(return ~ EQ + MOM + MSCR, data = as.data.frame(port.df)))
EQ MOM MSCR
1.359992 1.048142 1.412658
我感兴趣的变量是EQ、MOM 和 MSCR,控制变量是EFF、SIZE 和 UMP。EQ 仅在包含三个控制变量时才显着,而当它们不包含时变得无关紧要:
这是包含控制变量时的系数(第 1 行)和 t-stats(第 2 行)(注意 EQ 具有统计显着性)
intercept EQ EFF SIZE MOM MSCR UMP [1,] 0.005206246 -0.006310531 0.0001229055 0.004125551 0.007738259 0.00473377 5.838596e-06 [2,] 1.866628909 -1.746583234 0.0388823612 1.178460997 2.145062820 2.08131100 1.994863e-01现在,这是排除控制变量时的回归结果(注意 EQ 不再具有统计显着性)
intercept EQ MOM MSCR [1,] 0.007313402 -0.002111833 0.007128606 0.00668364 [2,] 2.652662996 -0.595391117 2.036985378 2.80177366
问题是当我包含我的控制变量时,我所有感兴趣的变量都很重要,但我的控制变量不是。
我应该在最终模型中包含哪些变量?那么,考虑到模型将用于预测这一事实,我应该如何构建我的最终模型?
谢谢,