测试以了解何时使用 GLM 而不是线性回归?

机器算法验证 多重回归 广义线性模型
2022-03-03 09:21:48

广义线性模型 (GLM) 在构造上比线性回归更通用。这里提出了几乎相同的问题:何时使用 GLM 而不是 LM?. 但是,我对提出的不同答案不太满意。

我想知道:有没有一种系统的方法可以知道 GLM 是否比线性回归更合适,就像测试一样简单?

3个回答

与统计学中的许多其他案例一样,寻找一个单一的测试来代替一个人的判断的目标是一个糟糕的目标。

在决定时您可以并且应该使用多种信息来源:分布的理论预期、对该主题的先前经验工作、数据的属性(例如,它是截断的还是零膨胀的?),以及残差分布和拟合模型后的其他诊断。但是没有一个单一的、通用的测试(甚至是一组测试)可以告诉你该怎么做。

而且不可能有一个。我认识到在做出这样的选择时遵循决策树的直观吸引力,尤其是在对您来说复杂和新的领域。但是您需要考虑的领域几乎没有硬性界限,因此这个决定并不适合这样的工作流程。您需要使用判断力,而开发它需要时间和练习。

@mkt 在这个论坛上的另一个很好的答案。这里还有一些您可能会觉得有用的建议。

GLM 包括一些广泛使用的回归模型类型:

  1. 二元逻辑回归模型;
  2. 二项式逻辑回归模型;
  3. 多项逻辑回归模型;
  4. 序数逻辑回归模型;
  5. 泊松回归模型;
  6. Beta回归模型;
  7. 伽玛回归模型。

正如@COOLSerdash 在他的评论中指出的那样,beta 回归模型与 GLM(GLM;McCullagh 和 Nelder 1989)共享一些特征——例如线性预测器、链接函数、分散参数,但不是 GLM 框架的特例。但是,由于它们与 GLM 的相似性和实用价值,我将它们包括在上面的列表中。

一个好的起点是熟悉每种类型的模型以及何时使用它。

二元逻辑回归模型

这些类型的模型用于对二元因变量 Y 和一组自变量 X1、...、Xp 之间的关系进行建模。

例如,Y 可以代表当地医院患者在治疗特定疾病的手术干预后 30 天评估的生存状态,对于幸存的患者,Y = 1,对于死亡的患者,Y = 0。此外,如果 p = 2,则 X1 可以代表年龄(以年表示),X2 可以代表性别。对于以下所有后续示例,将假定 p = 2 并且 X1 和 X2 将具有与当前示例相同的含义。

二项式逻辑回归模型

这些类型的模型用于对二项式因变量 Y 和一组自变量 X1、...、Xp 之间的关系进行建模。

例如,Y 可以表示患者在调查问卷上回答的正确问题的数量(共 10 个),以引发他们对与其疾病相关的症状的了解。

多项逻辑回归模型

这些类型的模型用于对具有 2 个以上类别的名义因变量 Y 与一组自变量 X1、...、Xp 之间的关系进行建模。

序数逻辑回归模型

这些类型的模型用于对序数因变量 Y 和一组自变量 X1、...、Xp 之间的关系进行建模。

例如,Y 可以代表患者在手术后立即经历的疼痛程度,以从 1 到 5 的顺序量表表示,其中 1 代表无痛,5 代表剧烈疼痛。

泊松回归模型

这些类型的模型用于对计数因变量 Y 和一组自变量 X1、...、Xp 之间的关系进行建模。

例如,Y 可以表示患者在手术后必须使用止痛药的住院天数(共 30 天)。

Beta 回归模型

这些类型的模型用于对表示为在开区间 (0,1) 中取值的连续比例表示的因变量 Y 与一组自变量 X1、...、Xp 之间的关系进行建模。

例如,如果所讨论的疾病是脑部疾病,则 Y 可以代表手术后 30 天仍受疾病影响的脑部区域相对于手术幸存患者的总脑部区域的比例。

伽玛回归模型

这些类型的模型用于对正值、连续因变量 Y 和一组自变量 X1、...、Xp 之间的关系进行建模。

例如,Y 可以代表存活到 30 天的患者的医疗保健使用成本。

这是对@Victor 对@mkt 答案的评论的回复,但它变得相当大,我想它回答了这个问题。

使用 GLM 的目的是允许与高斯分布不同的误差分布。

数据生成过程是否连续,具有集中趋势,是否可以同时具有正值和负值?那么一个普通的LM是一个不错的起点。这些问题的答案是否定的?然后确定哪种误差分布可能是合适的,并从使用该误差分布的 GLM 或 GAM 开始。Isabella 的回答提供了一些具体示例,说明何时使用哪个发行版。

在此之后,您应该始终执行视觉诊断。从理论上讲,您的假设可能是合理的,但在实践中被严重违反。

这个过程没有单一的方法或测试,因为即使在违反正态(或实际上任何)分布的假设的情况下,模型仍然可以很好地近似过程。

请记住,所有模型都是错误的。关键是要找到一个有用的,一个好的起点是理论证实。保留测试仅用于比较少数候选模型。

(当然,这是假设您使用模型进行推理。对于预测问题,您根本不应该关注拟合优度。)