我想进行回归,其中因变量 (DV) 是初创公司获得的资金量(以美元计)。自然地,DV 包含很多零 (~55%),并且对于 y>0 具有连续分布。
一般来说,我的理解是 Tobit 模型(或它的变体)适合模拟这个 DV。
尽管现在已经阅读和讨论了几个月,但我仍然难以理解标准 Tobit (1958) 模型、Cragg (1971) 提出的两部分扩展和 Tobit Type 2 模型(例如 Heckmann 代表)之间的确切区别(1974 年、1976 年、1979 年)。我目前的理解是,所有模型在理论上都可以适用,具有不同的优缺点以及根本不使用它们的潜在原因(取决于数据集的确切特征)。
为什么我排除了标准 Tobit 模型
对于我的应用程序,我排除了标准 Tobit 模型,因为它只允许两个过程由相同的变量控制,这些变量也只报告了一个系数。因此,某个变量的影响在选择和结果方程中不能有不同的符号(尽管有时确实如此)。
Tobit Type 2(或 Heckmann 选择模型)与两部分模型(Cragg)
到目前为止,我的理解是,这两个模型之间的主要区别在于两部分模型仅假设真零,而 Tobit 类型 2 也(或仅?)考虑未观察到的零(例如,通常不吸烟的人是0 和通常吸烟但在某个时间点不能吸烟的人也是 0)
然而,这并不完全正确,因为 Cragg (1971) 最初也提出了一个双障碍模型,其中必须克服 2 个障碍才能观察到 y 的正值:“首先,必须需要一个正数 [(即 I是否吸烟)]。其次,必须出现有利的环境才能实现积极的愿望[(即,我是吸烟者并且我有足够的资金来负担吸烟的费用)]”。
我认为这意味着 Tobit Type II 在第一个选择方程中说明了两种类型的零(或仅未观察到?),并且结果方程在 y>0 处被截断,单栏 Cragg 模型仅说明选择中的真零方程和双障碍 Cragg 模型解释了选择过程中的“未观察到的”零点和结果方程中的“真实”零点。
问题
我对这三个模型的陈述是否正确?这到底是什么意思?零的来源是唯一/主要的决策标准吗?如果是这样,就我的数据而言,这对我来说意味着:初创公司决定是否申请资金(第一个零来源 -> 未观察到),随后市场决定是否提供资金(第二个零来源 -> 观察到)并且,在肯定的情况下,多少 (y > 0) -> Cragg 的双栏模型(真正的“双”栏模型经常被错误地误认为是单栏模型)
不管我的(可能是错误的)结论如何:在决定使用哪种类型的模型(Tobit Type 2 (Heckmann) 模型或两部分模型(单一障碍(全为零)时)我应该考虑/讨论的关键决策标准是什么?是真正的零)还是双重障碍(在选择和消费时可能会出现零)?除了“只是”零的来源之外,还有更多的东西吗?
附加信息
这篇论文(读起来很棒!Brad R. Humphreys,2013 年),尤其是其中的一个关键图表,突出了未观察到的零点(即缺失数据,公司不寻求资金)和观察到的零点(即投资者提供资金)之间的区别与否)非常好。它还提供了有关使用哪些模型的指导,但不幸的是,它没有为同时存在两种类型的零的数据提供解决方案。
潜在的解决方案
在深入挖掘之后,我发现了两篇论文,它们为我正在寻找的内容提供了一个统计解决方案:
- Blundell,Richard 和 Meghir,Costas,(1987 年),Tobit 模型的双变量替代方案,计量经济学杂志,34,第 1-2 期,p。179-200。(http://sites.psu.edu/scottcolby/wp-content/uploads/sites/13885/2014/07/Blundell1987_Bivariate-alternatives-to-the-tobit-model.pdf)描述了一个假设依赖的双重障碍模型。有关应用,请参见Blundell, Richard, Ham, John and Meghir, Costas, (1987), Unemployment and Female Labor Supply, Economic Journal, 97, issue 388a, p. 44-64。
- Moulton、Lawrence H. 和 Neal A. Halsey提供了另一种解决方案。“具有检测限的混合模型,用于对疫苗的抗体反应进行回归分析。” 生物识别,第一卷。51,没有。4,1995,第 1570-1578 页。www.jstor.org/stable/2533289描述了用于删失数据的伯努利/对数正态混合模型,该模型也解释了这两种类型的零。
不幸的是,我在 Stata 或 R 中找不到任何值得信赖的实现(有一个名为 mhurdle 的包,但它似乎不适用于权重并引发随机错误......)
任何意见或进一步的想法?