当自变量不显着但绝对应该显着时该怎么办!

机器算法验证 回归 状态 计量经济学
2022-03-21 02:02:17

感谢您对这个问题的帮助。我正在尝试复制这项关于寻找最佳银行资本水平的研究。所有这些都是使用 Stata 完成的。唯一的区别是我有季度数据,而作者有半年数据。

我们对以下回归有问题:

Beta=alpha(i) + X(i,t-1)b + u(it)

X(i,t-1) 代表了一个非常有记录的重要的 beta 预测因子。估计过程如下:

  1. 执行单位根测试以确保 beta 和 X 没有虚假链接。

    我们进行了测试,我们拒绝了 H0,因此到目前为止一切都很好。

  2. 使用 OLS、固定效应和随机效应执行回归。当我们按照研究中指示的每一步进行回归时,我们会发现 X 不显着。连80%的水平都没有!对于这三种方法中的任何一种。(有关回归的更多详细信息,请参阅第 13 页的末尾至第 15 页)。

我们的面板数据如下所示:

面板数据

根据论文中的指示,这是我们运行的回归:

. xtset bank quarters, quarterly

panel variable:  bank (strongly balanced)
time variable:  quarters, 1998q1 to 2013q1
delta:  1 quarter

--

. xtreg beta ib(first).year LD.leveragefull, fe vce(cluster bank)

这就是我们得到的:

    Fixed-effects (within) regression               Number of obs      =       295
Group variable: bank                            Number of groups   =         5

R-sq:  within  = 0.2965                         Obs per group: min =        59
       between = 0.0002                                        avg =      59.0
       overall = 0.1387                                        max =        59

                                                F(4,4)             =         .
corr(u_i, Xb)  = 0.0000                         Prob > F           =         .

                                   (Std. Err. adjusted for 5 clusters in bank)
------------------------------------------------------------------------------
             |               Robust
        beta |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        year |
       1999  |  -.2352546   .0679795    -3.46   0.026    -.4239961   -.0465131
       2000  |  -.3410705   .1256874    -2.71   0.053    -.6900346    .0078936
       2001  |  -.2187538   .1399625    -1.56   0.193    -.6073519    .1698443
       2002  |  -.2628397    .094347    -2.79   0.050     -.524789   -.0008903
       2003  |  -.1413272    .050201    -2.82   0.048    -.2807076   -.0019469
       2004  |  -.2506764   .0697621    -3.59   0.023     -.444367   -.0569858
       2005  |  -.3280419   .1220112    -2.69   0.055    -.6667993    .0107156
       2006  |  -.2976486   .0996758    -2.99   0.040     -.574393   -.0209043
       2007  |  -.1901107   .1236727    -1.54   0.199    -.5334811    .1532598
       2008  |  -.1407684   .0840705    -1.67   0.169    -.3741854    .0926487
       2009  |  -.0503666   .0505586    -1.00   0.376    -.1907398    .0900066
       2010  |  -.0764699    .057999    -1.32   0.258    -.2375011    .0845613
       2011  |  -.0035166   .0720702    -0.05   0.963    -.2036155    .1965823
       2012  |   .0006204   .0492506     0.01   0.991     -.136121    .1373619
       2013  |   .3996657   .0604211     6.61   0.003     .2319099    .5674215
             |
leveragefull |
         LD. |   .0047472   .0068057     0.70   0.524    -.0141484    .0236428
             |
       _cons |   .5461694    .069342     7.88   0.001     .3536452    .7386935
-------------+----------------------------------------------------------------
     sigma_u |  .29632318
     sigma_e |  .21633914
         rho |   .6523096   (fraction of variance due to u_i)
------------------------------------------------------------------------------

另一方面,该研究的作者获得了非常重要的杠杆(X)值,这在理论和实践中具有绝对意义。

所以问题是,我做错了什么?可能是什么问题?如何修复数据或回归以增加结果的重要性?

2个回答

您可以做的一件事是查看效果大小并围绕它们建立置信区间。“非常”显着的系数不一定代表强烈的影响,测试结果很大程度上取决于样本量。因此,未能拒绝零假设并不能证明您的结果与之前的研究不一致(Andrew Gelman 经常这样说:“显着和非显着之间的差异本身并不显着”)。

基本上,您拥有的数据越多,您对给定系数与 0 不同这一事实的信心就越大,但同样,这并不是衡量变量之间关系强度的指标。如果置信区间重叠或系数或效应量测量值相似但不显着,则仅意味着其中一项研究的功效较小。如果是这种情况,“修复”它的一种方法就是收集更多数据。

另外,我对你的领域一无所知,我不确定你在做什么,但一般来说,一项已发表的研究不足以让我相信某件事绝对应该是重要的,无论相关的p值是多少。如果您有强有力的理论理由期望它是另一回事,但您不应高估许多已发表结果的可重复性(例如参见 John Ioannidis 的出版物)。

阅读更多后,我发现这些值并不重要,因为固定效应模型不适用于数据。我有一个很高的异方差性,这不是通过将数据转换为它的日志形式来解决的。到目前为止,对异方差进行鲁棒误差调整的 OLS 给了我们最好的结果。