机器算法验证 - 解释 glm 模型的残差诊断图？ - 吾爱随笔录

解释 glm 模型的残差诊断图？

机器算法验证广义线性模型诊断残差

2022-02-14 16:50:33

我正在寻找有关如何解释 glm 模型残差图的指南。特别是泊松、负二项式、二项式模型。当模型“正确”时，我们可以从这些图中得到什么？（例如，在处理泊松模型时，我们预计方差会随着预测值的增加而增加）

我知道答案取决于模型。任何参考资料（或要考虑的一般要点）都会有所帮助/赞赏。

3个回答

我认为这是进行回归分析时最具挑战性的部分之一。我也对大多数解释感到困惑（特别是二项式诊断太疯狂了！）。

我刚刚偶然发现了这篇文章 http://www.r-bloggers.com/model-validation-interpreting-residual-plots/ 谁也链接了https://web.archive.org/web/20100202230711/http://statmaster .sdu.dk/courses/st111/module04/module.pdf

对我帮助最大的是绘制残差与模型中包含和未包含的每个预测参数。这也意味着由于多重共线性的原因而预先被丢弃的那些。对于这个箱线图，条件散点图和正常散点图都很棒。这有助于发现可能的错误

在“Forest Analytics with R”（UseR 系列）中，有一些很好的解释如何解释混合效应模型（以及 glms）的残差。好读！https://www.springer.com/gp/book/9781441977618

有一天，我想到了一个可以收集用户可以投票“ok”和“not ok”的残留模式的网站。但我从来没有找到那个网站；）

我建议使用以下描述的方法：

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

有一些不同的想法，但它们主要归结为模拟数据，您知道真正的关系是什么，并且这种关系基于您对真实数据的分析。然后，您将真实数据的诊断结果与模拟数据集的诊断结果进行比较。vis.testR 的 TeachingDemos 包中的函数实现了论文中建议之一的变体。阅读整篇论文（不仅仅是我非常简短的总结）以获得更好的理解。

这个问题已经很老了，但我认为补充一点会很有用，因为最近，您可以使用DHARMa R 包将任何 GL(M)M 的残差转换为标准化空间。完成此操作后，您可以以正常方式直观地评估/测试残差问题，例如与分布的偏差、对预测变量的残差依赖性、异方差或自相关。请参阅包小插图以获取经过处理的示例，以及有关 CV此处和此处的其他问题。

其它你可能感兴趣的问题

上一篇从随机森林的投票中创建“确定性分数”？下一篇有人可以用英语向我解释 NUTS 吗？