如何在 logit、probit 或线性概率模型之间进行选择?

机器算法验证 物流 广义线性模型 计量经济学 概率
2022-04-03 06:58:13

为了决定是使用 logit、probit 还是线性概率模型,我将 logit/probit 模型的边际效应与线性概率模型中的变量系数进行了比较。但是,由于它们不相似,我不确定如何选择最适合的模型?

2个回答

使用线性回归对二分结果建模是一个很大的禁忌。误差项不会呈正态分布,会存在异方差,预测值会落在 0 和 1 的逻辑边界之外。

Logit 和 probit 在基本分布的假设上有所不同。Logit 假设分布是逻辑的(即结果要么发生,要么不发生)。Probit 假设基础分布是正态的,这本质上意味着观察到的结果要么发生,要么不发生,但这反映了正态分布的基础潜在变量达到了某个阈值。

实际上,这些不同分布假设的最终结果是系数不同,通常相差约 1.6 倍。但是,如果您查看边际效应(意味着对结果的预测平均值的影响,将其他协变量保持在平均值或对观察值进行平均),logit 和 probit 模型将做出基本相同的预测。因此,如果您正在查看边际效应,那么选择可能并不重要。

另一方面,如果您不打算计算边际,那么 logit 具有明显的优势,即生成可以通过对系数取幂转换为熟悉的优势比的系数。Probit 系数本质上是无法解释的 - 鉴于这个原因,我会报告一个 probit 模型的平均边际效应。当然,大多数人错误地将优势比解释为概率,这是一个很大的禁忌。结果发生的几率是成功与失败的比率(几率为 1 对应于 0.5 的概率)。因此,赔率 RATIOS 反映了在预测变量发生 1 个单位变化的情况下预测的赔率变化。因此,优势比反映了相对于结果发生的基本优势的变化。给定一个很少发生或几乎总是发生的结果,概率的微小变化可能对应于很大的优势比。优势比是比率的比率可能非常令人困惑,因此我们得出了在 logit 模型的背景下报告边际效应的理由。

所以,总而言之,不要使用线性概率模型。使用 logit 或 probit 并报告边际效应。这种选择或许具有理论意义,但如果报告边际效应,则可能没有实际意义。如果您不打算报告边际效应,请使用 logit,但请务必正确解释优势比,以免您看起来像一个不知情的白痴。

根据 whauser 的回应,我还要补充一点,这取决于您的数据。

我从我的教授那里了解到:如果我们在我们的固定效应中处理高维空间数据,最好使用 LPM 来最小化偏差(然后使用 HAC 校正),因为逻辑和概率会受到“附带参数问题”的困扰»。