如果统计上不显着,控制变量是否应该包含在模型中?

机器算法验证 r 回归 统计学意义 因子分析 多重共线性
2022-03-28 02:56:04

我在线性回归中有一组预测变量,以及三个控制变量。这里的问题是,我感兴趣的变量之一只有在最终模型中包含控制变量时才具有统计意义。然而,控制变量本身在统计上并不显着。

这是我所有变量的多重共线性的样子(包括控制变量):

 > vif(lm(return ~ EQ + EFF + SIZE + MOM + MSCR + UMP, data = as.data.frame(port.df)))
       EQ      EFF     SIZE      MOM     MSCR      UMP 
 3.687171 3.481672 2.781901 1.064312 1.438596 1.003408

 > vif(lm(return ~ EQ + MOM + MSCR, data = as.data.frame(port.df)))
       EQ      MOM     MSCR 
 1.359992 1.048142 1.412658 

我感兴趣的变量是EQ、MOM 和 MSCR,控制变量是EFF、SIZE 和 UMPEQ 仅在包含三个控制变量时才显着,而当它们不包含时变得无关紧要:

  • 这是包含控制变量时的系数(第 1 行)和 t-stats(第 2 行)(注意 EQ 具有统计显着性)

           intercept           EQ          EFF        SIZE         MOM       MSCR          UMP
    [1,] 0.005206246 -0.006310531 0.0001229055 0.004125551 0.007738259 0.00473377 5.838596e-06
    [2,] 1.866628909 -1.746583234 0.0388823612 1.178460997 2.145062820 2.08131100 1.994863e-01
    
  • 现在,这是排除控制变量时的回归结果(注意 EQ 不再具有统计显着性)

           intercept           EQ         MOM       MSCR
    [1,] 0.007313402 -0.002111833 0.007128606 0.00668364
    [2,] 2.652662996 -0.595391117 2.036985378 2.80177366
    

问题是当我包含我的控制变量时,我所有感兴趣的变量都很重要,但我的控制变量不是。

我应该在最终模型中包含哪些变量?那么,考虑到模型将用于预测这一事实,我应该如何构建我的最终模型?

谢谢,

2个回答

包含控制变量的一个原因正是因为它们可以影响其他变量。在这种情况下,控制变量的统计显着性完全不相关。

但是,您可能会遇到不同意的期刊编辑。

只是一个简短的评论:您的 p 值应该反映您正在“尝试”的模型数量。在某些方面,您尝试使用和不使用变量子集的模型的方法是p-hacking的一个方面。您的研究问题(而不是数据)应该确定什么是控制变量,什么是感兴趣的变量。只要您报告所做的所有测试,探索性数据分析就可以了。