逻辑回归的诊断?

机器算法验证 回归 物流 诊断
2022-01-27 00:27:24

对于线性回归,我们可以检查诊断图(残差图、正态 QQ 图等)来检查是否违反了线性回归的假设。

对于逻辑回归,我无法找到解释如何诊断逻辑回归模型拟合的资源。挖掘 GLM 的一些课程笔记,它只是指出检查残差对执行逻辑回归拟合的诊断没有帮助。

环顾互联网,似乎也有各种“诊断”程序,例如检查模型偏差和执行卡方检验,但其他消息来源指出这是不合适的,您应该执行 Hosmer-Lemeshow 拟合优度测试。然后我发现其他来源表明该测试可能高度依赖于实际分组和截止值(可能不可靠)。

那么应该如何诊断逻辑回归拟合呢?

3个回答

我遇到的一些用于评估逻辑回归模型拟合度的新技术来自政治科学期刊:

  • Greenhill、Brian、Michael D. Ward 和 Audrey Sacks。2011. 分离图:评估二元模型拟合的新视觉方法。美国政治学杂志 55(4):991-1002
  • 埃萨雷、贾斯汀和安德鲁皮尔斯。2012. 评估拟合质量和测试二元因变量模型中的错误指定。政治分析 20(4): 480-500在这里预印PDF

这两种技术都旨在取代拟合优度测试(如 Hosmer 和 Lemeshow)并识别潜在的错误规范(特别是方程中包含变量的非线性)。这些特别有用,因为典型的 R 方拟合度量经常受到批评

上述两篇论文都利用了预测概率与图中观察到的结果——在某种程度上避免了在此类模型中什么是残差这一不清楚的问题。残差的例子可能是对数似然或皮尔逊残差的贡献(我相信还有更多)。另一个经常感兴趣的度量(尽管不是残差)是 DFBeta(当从模型中排除观察时,系数估计值的变化量)。请参阅 Stata中有关逻辑回归诊断的此 UCLA 页面的示例以及其他潜在的诊断程序。

我手边没有它,但我相信 J. Scott Long 的分类和有限因变量回归模型以简单的方式对所有这些不同的诊断措施进行了足够详细的介绍。

这个问题的动机不够好。必须有运行模型诊断的理由,例如

  • 改变模型以使其更好的潜力
  • 不知道使用哪个定向测试(即非线性或交互测试)
  • 未能理解改变模型很容易扭曲统计推断(标准误差、置信区间、P-值)

除了检查与代数回归规范正交的事物(例如,检查普通线性模型中的残差分布)之外,模型诊断可以产生与我认为解决的问题一样多的问题。对于二元逻辑模型尤其如此,因为它没有分布假设。

因此,通常最好花时间指定模型,尤其是不要假设先前没有证据表明线性的被认为很强的变量是线性的。在某些情况下,您可以预先指定一个必须拟合的模型,例如,如果预测变量的数量很少,或者您允许所有预测变量都是非线性的并且(正确地)假设没有交互作用。

任何认为模型诊断可用于更改模型的人都应该在引导循环中运行该过程,以正确估计诱导的模型不确定性。

这个线程很老了,但我认为补充一点会很有用,因为最近,您可以使用DHARMa R 包将任何 GL(M)M 的残差转换为标准化空间。完成此操作后,您可以以正常方式直观地评估/测试残差问题,例如与分布的偏差、对预测变量的残差依赖性、异方差或自相关。请参阅包小插图以获取经过处理的示例,以及有关 CV此处此处的其他问题。