我正在寻找有关如何解释 glm 模型残差图的指南。特别是泊松、负二项式、二项式模型。当模型“正确”时,我们可以从这些图中得到什么?(例如,在处理泊松模型时,我们预计方差会随着预测值的增加而增加)
我知道答案取决于模型。任何参考资料(或要考虑的一般要点)都会有所帮助/赞赏。
我正在寻找有关如何解释 glm 模型残差图的指南。特别是泊松、负二项式、二项式模型。当模型“正确”时,我们可以从这些图中得到什么?(例如,在处理泊松模型时,我们预计方差会随着预测值的增加而增加)
我知道答案取决于模型。任何参考资料(或要考虑的一般要点)都会有所帮助/赞赏。
我认为这是进行回归分析时最具挑战性的部分之一。我也对大多数解释感到困惑(特别是二项式诊断太疯狂了!)。
我刚刚偶然发现了这篇文章 http://www.r-bloggers.com/model-validation-interpreting-residual-plots/ 谁也链接 了https://web.archive.org/web/20100202230711/http://statmaster .sdu.dk/courses/st111/module04/module.pdf
对我帮助最大的是绘制残差与模型中包含和未包含的每个预测参数。这也意味着由于多重共线性的原因而预先被丢弃的那些。对于这个箱线图,条件散点图和正常散点图都很棒。这有助于发现可能的错误
在“Forest Analytics with R”(UseR 系列)中,有一些很好的解释如何解释混合效应模型(以及 glms)的残差。好读!https://www.springer.com/gp/book/9781441977618
有一天,我想到了一个可以收集用户可以投票“ok”和“not ok”的残留模式的网站。但我从来没有找到那个网站;)
我建议使用以下描述的方法:
Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne, D.F and Wickham, H. (2009) Statistical Inference for exploratory data analysis and model diagnostics Phil. Trans. R. Soc. A 2009 367, 4361-4383 doi: 10.1098/rsta.2009.0120
有一些不同的想法,但它们主要归结为模拟数据,您知道真正的关系是什么,并且这种关系基于您对真实数据的分析。然后,您将真实数据的诊断结果与模拟数据集的诊断结果进行比较。vis.test
R 的 TeachingDemos 包中的函数实现了论文中建议之一的变体。阅读整篇论文(不仅仅是我非常简短的总结)以获得更好的理解。
这个问题已经很老了,但我认为补充一点会很有用,因为最近,您可以使用DHARMa R 包将任何 GL(M)M 的残差转换为标准化空间。完成此操作后,您可以以正常方式直观地评估/测试残差问题,例如与分布的偏差、对预测变量的残差依赖性、异方差或自相关。请参阅包小插图以获取经过处理的示例,以及有关 CV此处和此处的其他问题。