两部分模型(例如,Cragg)和 Tobit 2 型模型(例如,Heckman)之间的确切区别

机器算法验证 模型选择 零通胀 tobit回归 赫克曼
2022-03-03 10:01:23

我想进行回归,其中因变量 (DV) 是初创公司获得的资金量(以美元计)。自然地,DV 包含很多零 (~55%),并且对于 y>0 具有连续分布。

一般来说,我的理解是 Tobit 模型(或它的变体)适合模拟这个 DV。

尽管现在已经阅读和讨论了几个月,但我仍然难以理解标准 Tobit (1958) 模型、Cragg (1971) 提出的两部分扩展和 Tobit Type 2 模型(例如 Heckmann 代表)之间的确切区别(1974 年、1976 年、1979 年)。我目前的理解是,所有模型在理论上都可以适用,具有不同的优缺点以及根本不使用它们的潜在原因(取决于数据集的确切特征)。

为什么我排除了标准 Tobit 模型

对于我的应用程序,我排除了标准 Tobit 模型,因为它只允许两个过程由相同的变量控制,这些变量也只报告了一个系数。因此,某个变量的影响在选择和结果方程中不能有不同的符号(尽管有时确实如此)。

Tobit Type 2(或 Heckmann 选择模型)与两部分模型(Cragg)

到目前为止,我的理解是,这两个模型之间的主要区别在于两部分模型仅假设真零,而 Tobit 类型 2 也(或仅?)考虑未观察到的零(例如,通常不吸烟的人是0 和通常吸烟但在某个时间点不能吸烟的人也是 0)

然而,这并不完全正确,因为 Cragg (1971) 最初也提出了一个双障碍模型,其中必须克服 2 个障碍才能观察到 y 的正值:“首先,必须需要一个正数 [(即 I是否吸烟)]。其次,必须出现有利的环境才能实现积极的愿望[(即,我是吸烟者并且我有足够的资金来负担吸烟的费用)]”。

我认为这意味着 Tobit Type II 在第一个选择方程中说明了两种类型的零(或仅未观察到?),并且结果方程在 y>0 处被截断,单栏 Cragg 模型仅说明选择中的真零方程和双障碍 Cragg 模型解释了选择过程中的“未观察到的”零点和结果方程中的“真实”零点。

问题

  • 我对这三个模型的陈述是否正确?这到底是什么意思?零的来源是唯一/主要的决策标准吗?如果是这样,就我的数据而言,这对我来说意味着:初创公司决定是否申请资金(第一个零来源 -> 未观察到),随后市场决定是否提供资金(第二个零来源 -> 观察到)并且,在肯定的情况下,多少 (y > 0) -> Cragg 的双栏模型(真正的“双”栏模型经常被错误地误认为是单栏模型)

  • 不管我的(可能是错误的)结论如何:在决定使用哪种类型的模型(Tobit Type 2 (Heckmann) 模型或两部分模型(单一障碍(全为零)时)我应该考虑/讨论的关键决策标准是什么?是真正的零)还是双重障碍(在选择和消费时可能会出现零)?除了“只是”零的来源之外,还有更多的东西吗?

附加信息

这篇论文(读起来很棒!Brad R. Humphreys,2013 年),尤其是其中的一个关键图表,在此处输入图像描述突出了未观察到的零点(即缺失数据,公司不寻求资金)和观察到的零点(即投资者提供资金)之间的区别与否)非常好。它还提供了有关使用哪些模型的指导,但不幸的是,它没有为同时存在两种类型的零的数据提供解决方案。

潜在的解决方案

在深入挖掘之后,我发现了两篇论文,它们为我正在寻找的内容提供了一个统计解决方案:

  • Blundell,Richard 和 Meghir,Costas,(1987 年),Tobit 模型的双变量替代方案,计量经济学杂志,34,第 1-2 期,p。179-200。http://sites.psu.edu/scottcolby/wp-content/uploads/sites/13885/2014/07/Blundell1987_Bivariate-alternatives-to-the-tobit-model.pdf)描述了一个假设依赖的双重障碍模型。有关应用,请参见Blundell, Richard, Ham, John and Meghir, Costas, (1987), Unemployment and Female Labor Supply, Economic Journal, 97, issue 388a, p. 44-64。
  • Moulton、Lawrence H. 和 Neal A. Halsey提供了另一种解决方案。“具有检测限的混合模型,用于对疫苗的抗体反应进行回归分析。” 生物识别,第一卷。51,没有。4,1995,第 1570-1578 页。www.jstor.org/stable/2533289描述了用于删失数据的伯努利/对数正态混合模型,该模型也解释了这两种类型的零。

不幸的是,我在 Stata 或 R 中找不到任何值得信赖的实现(有一个名为 mhurdle 的包,但它似乎不适用于权重并引发随机错误......)

任何意见或进一步的想法?

1个回答

谢谢你的提问,马克。在我的数据上下文中,我最终使用了 Blundell 提出的双障碍模型(我建议的解决方案的第一个项目符号)。根据我在学术会议上收到的反馈,这似乎是一种可行的方法。我也最终使用了 R-package mhurdle。权重根本不起作用 - 其余代码似乎非常可靠。

关于我的具体问题;我对所有这些都没有一个有限的答案,但让我试着总结一下我学到的东西:

我对这三个模型的陈述是否正确? 看起来是这样 - 是的

零的来源是唯一/主要的决策标准吗? 它们当然不是唯一的决策标准,但是在质量点为零的数据的背景下,花费大量时间来了解如何生成零非常重要。

在决定使用哪种类型的模型时,我应该考虑/讨论哪些关键决策标准? 除了关于因变量类型及其分布的明显问题外,涉及质量点为零的数据的两个主要问题是:您想通过两个不同的阶段来区分您的结果,还是报告一组系数就足够了?如果是这样,您可以使用 Tobit 模型;否则,您需要一个由两部分组成的模型,其中关于零的不同来源的讨论会发挥作用。

不仅仅是“零”的来源吗? 是的 - 有。至少两个:观察到的/真零和未观察到的/假零(后者实际上是 NA 或被重新编码为 0 的小值)

希望这对您有所帮助!