我已经读到 2SLS 估计器仍然与二进制内生变量一致(http://www.stata.com/statalist/archive/2004-07/msg00699.html)。在第一阶段,将运行概率处理模型而不是线性模型。
是否有任何正式证据表明即使第一阶段是概率或 logit 模型,2SLS 仍然是一致的?
另外,如果结果也是二元的怎么办?我知道如果我们有一个二元结果和二元内生变量(第一阶段和第二阶段都是二元概率/logit 模型),模仿 2SLS 方法将产生不一致的估计。这有什么正式的证据吗?伍尔德里奇的计量经济学书有一些讨论,但我认为没有严格的证据表明这种不一致。
data sim;
do i=1 to 500000;
iv=rand("normal",0,1);
x2=rand("normal",0,1);
x3=rand("normal",0,1);
lp=0.5+0.8*iv+0.5*x2-0.2*x3;
T=rand("bernoulli",exp(lp)/(1+exp(lp)));
Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1);
output;
end;
run;
****1st stage: logit model ****;
****get predicted values ****;
proc logistic data=sim descending;
model T=IV;
output out=pred1 pred=p;
run;
****2nd stage: ols model with predicted values****;
proc reg data=pred1;
model y=p;
run;
的系数p = 1.19984
。我只运行一次模拟,但样本量很大。