2SLS 与二元内生变量的一致性

机器算法验证 概率 工具变量 内生性
2022-03-01 21:09:38

我已经读到 2SLS 估计器仍然与二进制内生变量一致(http://www.stata.com/statalist/archive/2004-07/msg00699.html)。在第一阶段,将运行概率处理模型而不是线性模型。

是否有任何正式证据表明即使第一阶段是概率或 logit 模型,2SLS 仍然是一致的?

另外,如果结果也是二元的怎么办?我知道如果我们有一个二元结果和二元内生变量(第一阶段和第二阶段都是二元概率/logit 模型),模仿 2SLS 方法将产生不一致的估计。这有什么正式的证据吗?伍尔德里奇的计量经济学书有一些讨论,但我认为没有严格的证据表明这种不一致。

data sim;
     do i=1 to 500000;
        iv=rand("normal",0,1);
             x2=rand("normal",0,1);
        x3=rand("normal",0,1);
        lp=0.5+0.8*iv+0.5*x2-0.2*x3;
        T=rand("bernoulli",exp(lp)/(1+exp(lp)));
        Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1);
        output;
     end;
     run;

****1st stage: logit model ****;
****get predicted values   ****;         
proc logistic data=sim descending;
     model T=IV;
     output out=pred1 pred=p;
     run;

****2nd stage: ols model with predicted values****;
proc reg data=pred1;
     model y=p;
     run;

的系数p = 1.19984我只运行一次模拟,但样本量很大。

1个回答

关于 probit 第一阶段和 OLS 第二阶段也有类似的问题。答案中,我提供了一个指向注释的链接,其中包含该回归不一致的正式证明,正式称为“禁止回归”,正如 Jerry Hausman 所说。probit第一阶段/OLS第二阶段方法不一致的主要原因是期望算子和线性投影算子都没有通过非线性第一阶段。因此,第一阶段概率的拟合值仅在非常严格的假设下与第二阶段误差项不相关,而这些假设在实践中几乎从不成立。请注意,如果我没记错的话,禁止回归的不一致的正式证明非常详尽。

如果你有模型

Yi=α+βXi+ϵi
在哪里Yi是一个连续的结果,并且Xi是一个二元内生变量,可以运行第一阶段
Xi=a+Ziπ+ηi
通过 OLS 并使用拟合值X^i代替Xi在第二阶段。这是您所指的线性概率模型。鉴于此线性第一阶段的预期或线性预测没有问题,您的 2SLS 估计将是一致的,尽管效率低于我们考虑非线性性质时的效率。Xi.

这种方法的一致性源于这样一个事实,即虽然非线性模型可能更接近于有限因变量的条件期望函数,但如果您对边际效应感兴趣,这并不重要。在线性概率模型中,系数本身是在均值处评估的边际效应,因此如果均值处的边际效应是您所追求的(并且通常是人们所追求的),那么这就是您想要的,因为线性模型给出了最好的线性非线性条件期望函数的近似。
如果Yi也是二进制的。

有关此主题的更详细讨论,请查看 Kit Baum关于该主题的出色讲义。在幻灯片 7 中,他讨论了线性概率模型在 2SLS 环境中的使用。

最后,如果你真的想使用概率,因为你想要更有效的估计,那么还有另一种方法,Wooldridge (2010) “横截面和面板数据的经济计量分析”中也提到了这种方法。上面链接的答案包括它,为了完整起见,我在这里重复一遍。作为一个应用示例,请参见Adams 等人。(2009)谁使用如下三步程序:

  1. 使用概率回归工具上的内生变量和外生变量
  2. 使用 OLS 第一阶段中上一步的预测值以及外生(但没有工具)变量
  3. 照常进行第二阶段

此过程不属于禁止回归问题,但可能会更有效地估计您感兴趣的参数。