Tobit模型说明

机器算法验证 tobit回归
2022-03-04 21:24:36

我们有两组100名参与者,n=50在每一组。我们在 4 个时间点对基本功能的能力进行了评估。评估包括 6 个问题,每个问题得分 0 - 5。我们没有每个问题的单独分数,只有 0 - 30 范围内的总分。分数越高表示功能越好。问题是评估非常基础,具有显着的天花板效应。结果非常负面。大多数参与者得分接近 30,尤其是在 3 个随访时间点。很可能并非所有得分在上限的参与者在能力上都真正相同:一些参与者刚刚得分 30,而其他参与者轻松得分 30,如果可能的话,得分会更高,因此数据是从上面审查。

我想比较两组并随着时间的推移,但显然考虑到结果的性质,这非常困难。任何形式的转换都没有区别。我被告知 Tobit 模型是最适合此评估的模型,我可以使用 Arne Henningen 的论文Estimating censored regression models in R using the censReg package 中的示例在 R 中运行分析。

但是,我只有基本的统计学知识,发现 Tobit 模型的信息相当复杂。我需要能够用通俗易懂的语言来解释这个模型,但我找不到通俗易懂的语言来解释 Tobit 模型的实际作用和方式。谁能在没有复杂的统计和数学解释的情况下解释 Tobit 模型或将我指向可读参考的方向?

非常感谢任何帮助

2个回答

wiki 对Tobit 模型的描述如下:

yi={yiifyi>0 0ifyi0

yi=βxi+ui

uiN(0,σ2)

我将根据您的上下文调整上述模型,并提供对方程的简单英语解释,这可能会有所帮助。

yi={ yiifyi3030ifyi>30

yi=βxi+ui

uiN(0,σ2)

在上述方程组中,yi代表主体的能力。因此,第一组方程陈述如下:

  1. 我们的能力测量在较高的 30 处被截断(即,我们捕捉到了天花板效应)。换句话说,如果一个人的能力大于 30,那么我们的测量仪器无法记录实际值,而是为该人记录 30。请注意,模型状态yi=30ifyi>30.

  2. 另一方面,如果一个人的能力低于 30,那么我们的测量仪器能够记录实际测量值。请注意,模型状态yi=yiifyi30.

  3. 我们塑造能力,yi,作为我们协变量的线性函数xi以及用于捕获噪声的相关误差项。

我希望这会有所帮助。如果某些方面不清楚,请随时在评论中提问。

Berk 在 1983 年版的《美国社会学评论》(第 3 期)中有一篇文章——这就是我了解审查的方式。该解释专门针对选择偏差,但与您的问题绝对相关。Berk 讨论的选择偏差只是通过样本选择过程进行审查,在您的情况下,审查是仪器不敏感的结果。有一些不错的图表可以准确地向您展示当以不同方式审查 Y 时,您如何期望回归线出现偏差。总的来说,这篇文章是合乎逻辑的和直观的,而不是数学的(是的,我将它们视为独立的,更喜欢前者)。Tobit 被讨论为解决该问题的一种方法。

更一般地说,听起来 tobit 是适合手头工作的工具。基本上,它的工作方式是估计被审查的概率,然后将其纳入预测分数的方程中。Heckman 提出了另一种使用概率和逆米尔斯比率的方法,它基本上是相同的,但允许您使用不同的变量来预测审查的可能性和测试中的分数 - 显然这不适合您的情况有。

另一个建议 - 您可以考虑一个分层 tobit 模型,其中观察嵌套在个体中。这将正确地解释错误与个人相关的趋势。或者,如果您不使用分层模型,至少要确保调整您的标准误差,以便在个人内进行观察的聚类。我知道这一切都可以在 Stata 中完成,并且相信 R 的多功能性也可以做到这一点。但作为一个狂热的 Stata 用户,我无法为您提供有关如何在 R 中进行操作的任何指导。