机器算法验证 - 哪些诊断可以验证特定 GLM 系列的使用？ - 吾爱随笔录

哪些诊断可以验证特定 GLM 系列的使用？

机器算法验证广义线性模型状态伽马分布

2022-01-24 07:03:59

这似乎很简单，但我总是卡在这一点上......

我处理的大多数数据都是非正态的，并且大多数分析基于 GLM 结构。对于我目前的分析，我有一个响应变量是“步行速度”（米/分钟）。我很容易确定我不能使用 OLS，但是，我在决定什么家庭（Gamma、Weibull 等）是合适的时有很大的不确定性！

我使用 Stata 并查看残差和异方差性、残差与拟合值等诊断。

我知道计数数据可以采用比率的形式（例如发病率）并使用伽玛（类似于过度分散的离散负二项式模型），但只是希望“确凿证据”说是的，你有正确的家庭。查看标准化残差与拟合值是唯一且最好的方法吗？我也想使用混合模型来解释数据中的一些层次结构，但首先需要弄清楚哪个系列最能描述我的响应变量。

任何帮助表示赞赏。Stata语言特别赞赏！

2个回答

我有一些提示：

(1) 残差应该如何与拟合进行比较并不总是那么明显，因此熟悉特定模型的诊断是很好的。例如，在逻辑回归模型中，Hosmer-Lemeshow 统计量用于评估拟合优度；当估计的赔率非常大、非常小或几乎是偶数时，杠杆值往往很小；＆很快。

(2) 有时一个模型族可以看作是另一个模型的特例，因此您可以对某个参数使用假设检验来帮助您进行选择。例如，指数与威布尔。

(3) Akaike 的信息准则有助于在不同模型之间进行选择，其中包括在不同家族之间进行选择。

(4) 关于您正在建模的内容的理论/经验知识缩小了合理模型的范围。

但是没有自动找到“合适”家庭的方法。现实生活中的数据可以来自您喜欢的复杂分布，并且值得尝试拟合的模型的复杂性随着您拥有的数据量而增加。这是 Box 格言的一部分，即没有模型是真实的，但有些模型是有用的。

回复@gung 的评论：看来常用的 Hosmer-Lemeshow 检验 (a) 对箱的选择非常敏感，& (b) 通常不如针对某些相关类别的替代假设的其他一些检验强大。这并没有减损第 (1) 点：保持最新状态也很好。

您可能会发现阅读R 包的小插图fitdistrplus（入门手册）很有趣。我知道你更喜欢在 Stata 工作，但我认为这个小插曲足够不言自明，你可以对从数据中推断分布族的过程有所了解。您可能可以通过自己的代码在 Stata 中实现一些想法。特别是，我认为 Cullen 和 Frey 图，如果它/可以在 Stata 中实现，可能对你有帮助。

其它你可能感兴趣的问题

上一篇我们什么时候可以谈论共线性下一篇来自 GLMNET 的可变重要性