解释 glm 模型的残差诊断图?

机器算法验证 广义线性模型 诊断 残差
2022-02-14 16:50:33

我正在寻找有关如何解释 glm 模型残差图的指南。特别是泊松、负二项式、二项式模型。当模型“正确”时,我们可以从这些图中得到什么?(例如,在处理泊松模型时,我们预计方差会随着预测值的增加而增加)

我知道答案取决于模型。任何参考资料(或要考虑的一般要点)都会有所帮助/赞赏。

3个回答

我认为这是进行回归分析时最具挑战性的部分之一。我也对大多数解释感到困惑(特别是二项式诊断太疯狂了!)。

我刚刚偶然发现了这篇文章 http://www.r-bloggers.com/model-validation-interpreting-residual-plots/ 谁也链接 了https://web.archive.org/web/20100202230711/http://statmaster .sdu.dk/courses/st111/module04/module.pdf

对我帮助最大的是绘制残差与模型中包含和未包含的每个预测参数。这也意味着由于多重共线性的原因而预先被丢弃的那些。对于这个箱线图,条件散点图和正常散点图都很棒。这有助于发现可能的错误

在“Forest Analytics with R”(UseR 系列)中,有一些很好的解释如何解释混合效应模型(以及 glms)的残差。好读!https://www.springer.com/gp/book/9781441977618

有一天,我想到了一个可以收集用户可以投票“ok”和“not ok”的残留模式的网站。但我从来没有找到那个网站;)

我建议使用以下描述的方法:

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

有一些不同的想法,但它们主要归结为模拟数据,您知道真正的关系是什么,并且这种关系基于您对真实数据的分析。然后,您将真实数据的诊断结果与模拟数据集的诊断结果进行比较。vis.testR 的 TeachingDemos 包中的函数实现了论文中建议之一的变体。阅读整篇论文(不仅仅是我非常简短的总结)以获得更好的理解。

这个问题已经很老了,但我认为补充一点会很有用,因为最近,您可以使用DHARMa R 包将任何 GL(M)M 的残差转换为标准化空间。完成此操作后,您可以以正常方式直观地评估/测试残差问题,例如与分布的偏差、对预测变量的残差依赖性、异方差或自相关。请参阅包小插图以获取经过处理的示例,以及有关 CV此处此处的其他问题。