logit 函数是否总是最适合二进制数据的回归建模?

机器算法验证 物流 参考 链接功能
2022-01-18 07:43:10

我一直在思考这个问题。对二进制数据建模的常用逻辑函数是: 但是 logit 函数是 S 形曲线,总是最适合建模数据?也许您有理由相信您的数据不遵循正常的 S 形曲线,而是具有域的不同类型的曲线。

log(p1p)=β0+β1X1+β2X2+
(0,1)

有没有这方面的研究?也许您可以将其建模为概率函数或类似的东西,但如果它完全是其他东西怎么办?这会导致更好地估计效果吗?只是我的一个想法,我想知道是否对此有任何研究。

4个回答

人们使用各种函数将他们的数据保持在 0 和 1 之间。当您导出模型时,对数几率自然会从数学中得出(它被称为“规范链接函数”),但您完全可以自由地尝试其他选择。

正如 Macro 在他对您的问题的评论中提到的那样,一个常见的选择是probit model,它使用高斯的分位数函数而不是逻辑函数。我也听说过使用学生分布的分位数函数的好处,尽管我从未尝试过。t

它们都具有相同的基本 S 形,但它们在两端饱和的速度不同。Probit 模型非常快地接近 0 和 1,如果概率趋于不那么极端,这可能是危险的。分布具有多少自由度。Andrew Gelman(在一个几乎不相关的上下文中)大致类似于逻辑曲线。降低自由度会在回归中为您提供更胖的尾巴和更广泛的中间值。当自由度变为无穷大时,您又回到了概率模型。ttt7

希望这可以帮助。

编辑添加:@Macro 链接到的讨论非常好。如果您对更多细节感兴趣,我强烈建议您阅读它。

我认为没有理由,先验,为什么给定数据集的适当链接函数必须是 logit(尽管总体上宇宙似乎对我们相当友善)。我不知道这些是否正是您正在寻找的,但这里有一些讨论更多奇异链接功能的论文:

披露:我不太了解这种材料。几年前我尝试过使用 Cauchit 和 Scobit,但我的代码一直在崩溃(可能是因为我不是一个出色的程序员),而且它似乎与我正在从事的项目无关,所以我放弃了它.

大部分这些东西都与不同于原型链接的尾部行为有关(即,函数“转角”较早,并且不会很快渐近到 0 和 1),或者是偏斜的(即,像 cloglog 一样,它们比另一个更快地接近一个极限)。我相信,您还应该能够通过将的样条函数与逻辑链接拟合来复制这些行为。 X

最好的策略是根据正在发生的事情对数据进行建模(不足为奇!)

  • Probit 模型源自 LD50 研究——您想要杀死一半虫子的杀虫剂剂量。二元反应是虫子是生还是死(在给定的剂量下)。在一剂下易感的虫子在较低剂量下也会易感,这就是对累积法线建模的想法出现的地方。
  • 如果二元观测值成簇出现,您可以使用 beta-二项式模型。Ben Bolker 在他的 bbmle 包(在 R 中)的文档中有很好的介绍,它在简单的情况下实现了这一点。与二项分布相比,这些模型可以更好地控制数据的变化。
  • 多元二进制数据——汇总成多维列联表的排序——可以使用对数线性模型进行分析。链接函数是对数而不是对数赔率。有人将此称为泊松回归。

可能没有关于这些模型的研究,尽管已经对这些模型中的任何一个、它们之间的比较以及估计它们的不同方法进行了大量研究。您在文献中发现的是,一段时间内有很多活动,因为研究人员考虑了针对特定类别问题的多种选择,然后一种方法出现了优越性。

Logit 是一个模型,其输入是专家的产品,每个专家都是伯努利分布。换句话说,如果您认为所有输入都是独立的伯努利分布,其证据组合的概率,您会发现您正在添加应用于每个的逻辑函数。(同样的事情的另一种说法是,从期望参数化到伯努利分布的自然参数化的转换是逻辑函数。)pipi