哪些诊断可以验证特定 GLM 系列的使用?

机器算法验证 广义线性模型 状态 伽马分布
2022-01-24 07:03:59

这似乎很简单,但我总是卡在这一点上......

我处理的大多数数据都是非正态的,并且大多数分析基于 GLM 结构。对于我目前的分析,我有一个响应变量是“步行速度”(米/分钟)。我很容易确定我不能使用 OLS,但是,我在决定什么家庭(Gamma、Weibull 等)是合适的时有很大的不确定性!

我使用 Stata 并查看残差和异方差性、残差与拟合值等诊断。

我知道计数数据可以采用比率的形式(例如发病率)并使用伽玛(类似于过度分散的离散负二项式模型),但只是希望“确凿证据”说是的,你有正确的家庭。查看标准化残差与拟合值是唯一且最好的方法吗?我也想使用混合模型来解释数据中的一些层次结构,但首先需要弄清楚哪个系列最能描述我的响应变量。

任何帮助表示赞赏。Stata语言特别赞赏!

2个回答

我有一些提示:

(1) 残差应该如何与拟合进行比较并不总是那么明显,因此熟悉特定模型的诊断是很好的。例如,在逻辑回归模型中,Hosmer-Lemeshow 统计量用于评估拟合优度;当估计的赔率非常大、非常小或几乎是偶数时,杠杆值往往很小;& 很快。

(2) 有时一个模型族可以看作是另一个模型的特例,因此您可以对某个参数使用假设检验来帮助您进行选择。例如,指数与威布尔。

(3) Akaike 的信息准则有助于在不同模型之间进行选择,其中包括在不同家族之间进行选择。

(4) 关于您正在建模的内容的理论/经验知识缩小了合理模型的范围。

但是没有自动找到“合适”家庭的方法。现实生活中的数据可以来自您喜欢的复杂分布,并且值得尝试拟合的模型的复杂性随着您拥有的数据量而增加。这是 Box 格言的一部分,即没有模型是真实的,但有些模型是有用的。

回复@gung 的评论:看来常用的 Hosmer-Lemeshow 检验 (a) 对箱的选择非常敏感,& (b) 通常不如针对某些相关类别的替代假设的其他一些检验强大。这并没有减损第 (1) 点:保持最新状态也很好。

您可能会发现阅读R 包的小插图fitdistrplus(入门手册)很有趣。我知道你更喜欢在 Stata 工作,但我认为这个小插曲足够不言自明,你可以对从数据中推断分布族的过程有所了解。您可能可以通过自己的代码在 Stata 中实现一些想法。特别是,我认为 Cullen 和 Frey 图,如果它/可以在 Stata 中实现,可能对你有帮助。