有人告诉我,可以运行两阶段 IV 回归,其中第一阶段是概率,第二阶段是 OLS。如果第一阶段是概率但第二阶段是概率/泊松模型,是否可以使用 2SLS?
Probit 两阶段最小二乘法 (2SLS)
向您提出的建议有时被称为禁止回归,通常您不会始终如一地估计感兴趣的关系。禁止回归仅在非常严格的假设下产生一致的估计,而这些假设在实践中很少成立(例如,参见 Wooldridge (2010) “Econometric Analysis of Cross Section an Panel Data”,第 265-268 页)。
问题是条件期望算子和线性投影都没有通过非线性函数。因此,只有第一阶段的 OLS 回归才能保证产生与残差不相关的拟合值。对此的证明可以在 Greene (2008) “计量经济学分析”中找到,或者,如果您想要更详细(但也更技术性)的证明,您可以查看 Jean-Louis Arcand 在第 1 页的注释。47 至 52。
出于与禁止回归相同的原因,这个看似明显的用概率模拟 2SLS 的两步过程不会产生一致的估计。这又是因为期望和线性预测不会通过非线性函数延续。Wooldridge (2010) 在第 594 页的第 15.7.3 节中提供了对此的详细解释。他还解释了用二元内生变量估计概率模型的正确程序。正确的方法是使用最大似然,但手动执行此操作并非微不足道。因此,如果您可以访问一些具有现成封装包的统计软件,则更好。例如,Stata 命令将是ivprobit
(请参阅该命令的 Stata手册,其中也解释了最大似然方法)。
如果您需要使用工具变量来了解概率背后的理论,请参见例如:
- Newey, W. (1987) “有效估计有限因变量模型与内生解释变量”,计量经济学杂志,卷。36,第 231-250 页
- Rivers, D. 和 Vuong, QH (1988)“同时概率模型的有限信息估计器和外生性检验”,计量经济学杂志,卷。39,第 347-366 页
最后,在第一阶段和第二阶段结合不同的估计方法是困难的,除非有理论基础证明它们的使用是合理的。这并不是说它不可行。例如,亚当斯等人。(2009)使用三步程序,其中他们有一个概率“第一阶段”和一个 OLS 第二阶段,而不会陷入禁止回归问题。他们的一般做法是:
- 使用概率回归工具上的内生变量和控制变量
- 使用 OLS 第一阶段中上一步的预测值以及控制(但没有工具)变量
- 照常进行第二阶段
Statalist 上的用户使用了类似的程序,他想使用 Tobit 第一阶段和 Poisson 第二阶段(参见此处)。对于您的估计问题,相同的修复应该是可行的。
如果您想要更详细(但也更技术性)的证明,您可以查看 Jean-Louis Arcand 在第 1 页上的注释。47 至 52。
情况似乎并非如此。Arcand 的讨论不是关于函数形式的;而是关于函数形式的。相反,它是关于在第一阶段和第二阶段模型中包含不同的协变量集。“换句话说,正确的 2SLS 程序需要包括所有出现在第一阶段简化形式的结构方程中的外生协变量。禁止回归涉及将部分或全部排除在外。”
回到最初的问题,我建议在第一阶段使用 OLS,在第二阶段使用概率。虽然这可能在技术上存在偏差,但(假设您有一个好的工具)可能比非 IV 方法的偏差更小。
我想在这里添加一个答案,因为对于被禁止的回归似乎有很多困惑。在我看来,只有当他希望第二阶段成为概率/泊松模型时,OP 才属于这种回归。我的回答基于 Wooldridge 本人对 Statalist 和 Wooldridge (2010) 横截面和面板数据的计量经济学分析的评论。
我浏览了 Wooldridge 自己对 Statalist (和他的书)的一些评论,与安迪的评论(请不要开枪)形成对比,似乎禁止回归是使用第一阶段的拟合值进入非线性第二阶段。我基于两个线程:
在这里,Wooldridge 解释说另一张海报落入了被禁止的回归陷阱:https ://www.statalist.org/forums/forum/general-stata-discussion/general/1308457-endogeneity-issue-negative-binomial 。我引用他的话:“在大多数情况下,你不能简单地将 EEV 的拟合值插入非线性函数中。”
在这篇文章中,Wooldridge 甚至建议在第一阶段使用序数概率(并在第二阶段使用拟合概率),因此显然不会造成任何问题:https ://www.statalist.org/forums/forum/general -stata-discussion/general/1381281-iv-estimation-for-ordinal-variable?_=1617356656297。
另请注意,我认为 Wooldridge (2010) 提到在这种情况下您仍然可以使用 2SLS,但不能通过使用拟合值来模仿它!请参阅标题为“估计”的第 9.5.2 章。