我一直在思考这个问题。对二进制数据建模的常用逻辑函数是: 但是 logit 函数是 S 形曲线,总是最适合建模数据?也许您有理由相信您的数据不遵循正常的 S 形曲线,而是具有域的不同类型的曲线。
有没有这方面的研究?也许您可以将其建模为概率函数或类似的东西,但如果它完全是其他东西怎么办?这会导致更好地估计效果吗?只是我的一个想法,我想知道是否对此有任何研究。
我一直在思考这个问题。对二进制数据建模的常用逻辑函数是: 但是 logit 函数是 S 形曲线,总是最适合建模数据?也许您有理由相信您的数据不遵循正常的 S 形曲线,而是具有域的不同类型的曲线。
有没有这方面的研究?也许您可以将其建模为概率函数或类似的东西,但如果它完全是其他东西怎么办?这会导致更好地估计效果吗?只是我的一个想法,我想知道是否对此有任何研究。
人们使用各种函数将他们的数据保持在 0 和 1 之间。当您导出模型时,对数几率自然会从数学中得出(它被称为“规范链接函数”),但您完全可以自由地尝试其他选择。
正如 Macro 在他对您的问题的评论中提到的那样,一个常见的选择是probit model,它使用高斯的分位数函数而不是逻辑函数。我也听说过使用学生分布的分位数函数的好处,尽管我从未尝试过。
它们都具有相同的基本 S 形,但它们在两端饱和的速度不同。Probit 模型非常快地接近 0 和 1,如果概率趋于不那么极端,这可能是危险的。分布具有多少自由度。Andrew Gelman说(在一个几乎不相关的上下文中)大致类似于逻辑曲线。降低自由度会在回归中为您提供更胖的尾巴和更广泛的中间值。当自由度变为无穷大时,您又回到了概率模型。
希望这可以帮助。
编辑添加:@Macro 链接到的讨论非常好。如果您对更多细节感兴趣,我强烈建议您阅读它。
我认为没有理由,先验,为什么给定数据集的适当链接函数必须是 logit(尽管总体上宇宙似乎对我们相当友善)。我不知道这些是否正是您正在寻找的,但这里有一些讨论更多奇异链接功能的论文:
考希特(等):
Koenker, R. 和 Yoon, J. (2009)。 二元选择模型的参数链接:Fisherian-Bayesian colloquy。 计量经济学杂志,152, 2,第 120-130 页。
Koenker, R. (2006)。二元选择模型的参数链接。Rnews,6、4,第 32-34 页。
斯科比特:
纳格勒,J. (1994)。Scobit:logit 和 probit 的替代估计器。 美国政治学杂志,38, 1 , 230-255 页。
斜率:
Bazan, JL, Bolfarine, H., & Branco, MD (2010)。 二元回归中倾斜概率链接的框架。 统计通讯——理论与方法,39,第 678-697 页。
(这似乎是对贝叶斯框架内倾斜链接的一个很好的概述):
陈,MH(2004)。 分类响应数据的倾斜链接模型。在斜椭圆分布及其应用:超越常态的旅程,Marc Genton,编辑。查普曼和霍尔。
披露:我不太了解这种材料。几年前我尝试过使用 Cauchit 和 Scobit,但我的代码一直在崩溃(可能是因为我不是一个出色的程序员),而且它似乎与我正在从事的项目无关,所以我放弃了它.
大部分这些东西都与不同于原型链接的尾部行为有关(即,函数“转角”较早,并且不会很快渐近到 0 和 1),或者是偏斜的(即,像 cloglog 一样,它们比另一个更快地接近一个极限)。我相信,您还应该能够通过将的样条函数与逻辑链接拟合来复制这些行为。
最好的策略是根据正在发生的事情对数据进行建模(不足为奇!)
可能没有关于这些模型的研究,尽管已经对这些模型中的任何一个、它们之间的比较以及估计它们的不同方法进行了大量研究。您在文献中发现的是,一段时间内有很多活动,因为研究人员考虑了针对特定类别问题的多种选择,然后一种方法出现了优越性。
Logit 是一个模型,其输入是专家的产品,每个专家都是伯努利分布。换句话说,如果您认为所有输入都是独立的伯努利分布,其证据组合的概率,您会发现您正在添加应用于每个的逻辑函数。(同样的事情的另一种说法是,从期望参数化到伯努利分布的自然参数化的转换是逻辑函数。)