McFadden 的伪解释R2R2

机器算法验证 回归 自习 物流
2022-01-31 14:26:46

我有一个二元逻辑回归模型,McFadden 的伪 R 平方为 0.192,因变量称为付款(1 = 付款,0 = 不付款)。这个伪 R 平方的解释是什么?

是否是嵌套模型的相对比较(例如,6 变量模型的 McFadden 伪 R 平方为 0.192,而 5 变量模型(从上述 6 变量模型中删除一个变量后),这个 5 变量模型具有伪 R -squared 为 0.131。我们是否希望在模型中保留第 6 个变量?)还是一个绝对量(例如,具有 McFadden 伪 R 平方为 0.192 的给定模型比任何具有 McFadden 伪的现有模型都要好R-squared 为 0.180(即使是非嵌套模型)?这些只是查看 McFadden 的伪 R-squared 的可能方法;但是,我认为这两种观点相去甚远,因此我在这里提出这个问题的原因。

我已经对这个主题进行了大量研究,但我还没有找到我正在寻找的答案,即能够解释 0.192 的 McFadden 伪 R 平方。非常感谢任何见解和/或参考!在回答这个问题之前,我知道这不是描述逻辑回归模型的最佳度量,但无论如何我都希望对这个统计数据有更深入的了解!

4个回答

所以我想我会总结一下我对 McFadden 的伪的了解作为正确答案。R2

我可以看到的关于 McFadden 的伪的开创性参考文献是:McFadden, D. (1974)“定性选择行为的条件 logit 分析”。聚丙烯。105-142 in P. Zarembka (ed.), Frontiers in Econometrics。学术出版社。http://eml.berkeley.edu/~mcfadden/travel.html与来自 OLS 的传统度量 之间的关系。我的解释是(麦克法登的伪)的较大值比较小的值更好。 R2ρ2R2ρ2R2

McFadden 对 0.2-0.4 之间的伪的解释来自他贡献的一本书章节:Bahvioural Travel Modelling。由 David Hensher 和 Peter Stopher 编辑。1979. McFadden 贡献了 Ch。15“分析个人旅行行为的定量方法:一些最新发展”。模型评估的讨论(在多项 logit 模型的上下文中)从第 306 页开始,他介绍了(McFadden 的伪)。McFadden 指出“虽然指数对于有 OLS 经验的规划者来说是一个更熟悉的概念,但对于 ML 估计,它的表现不如度量。那些不熟悉R2ρ2R2R2ρ2ρ2应该预先警告它的值往往远低于索引的值......例如,的 0.2 到 0.4 的值表示非常适合。”R2ρ2

所以基本上,可以解释为,但不要指望它那么大。0.2-0.4 的值表明(用 McFadden 的话)出色的模型拟合。ρ2R2

McFadden 的定义为,其中是拟合模型的对数似然值,是空模型的对数似然,其中仅包含一个截距作为预测变量(因此每个人都被预测为相同的“成功”概率)。R21LLmod/LL0LLmodLL0

对于逻辑回归模型,对数似然值始终为负(因为每个观察值的似然贡献是介于 0 和 1 之间的概率)。如果您的模型并不能真正比空模型更好地预测结果,不会比大很多,因此,并且 McFadden 的伪接近0(您的模型没有预测价值)。LLmodLL0LLmod/LL01R2

相反,如果您的模型真的很好,那些具有成功 (1) 结果的人的拟合概率将接近 1,反之亦然,对于那些具有失败 (0) 结果的人。在这种情况下,如果您进行似然计算,则每个个体对模型的似然贡献将接近于零,因此接近于零,并且 McFadden 的伪平方接近于 1,表明非常好的预测能力。LLmodR2

至于什么可以被认为是一个好的价值,我个人的观点是,就像统计学中的类似问题(例如,什么构成了很大的相关性?),这永远不可能是一个确定的答案。去年我写了一篇关于逻辑回归中McFadden 的R2

我对这个主题做了一些更集中的研究,我发现对 McFadden 的伪(也称为似然比指数)的解释不清楚;但是,它的范围可以从 0 到 1,但由于其计算结果,它永远不会达到或超过 1。R2

我发现非常有用的一条经验法则是,McFadden 的伪范围从 0.2 到 0.4 表明模型拟合非常好。因此,上面提到的 McFadden 伪为 0.192 的模型可能不是一个糟糕的模型,至少从这个指标来看是这样,但它也不是特别强。R2R2

还需要注意的是,McFadden 的伪最适合用于比较同一模型(即嵌套模型)的不同规格。参考上述示例,6 变量模型(McFadden 的伪 = 0.192)比我使用对数似然比测试正式测试 = 0.131)更适合数据,这表明两个模型之间存在显着差异(p < 0.001),因此对于给定的数据集,首选 6 变量模型。R2R2R2

如果有人仍然有兴趣找到 McFadden 自己的话,这里是链接。在脚注中,McFadden (1977, p.35) 写道:“[ ] 的 0.2 到 0.4 的值表示非常合适。” 该论文可在线获取。ρ2

http://cowles.yale.edu/sites/default/files/files/pub/d04/d0474.pdf