机器算法验证 - 广义线性模型和广义线性混合模型之间的区别 - 吾爱随笔录

广义线性模型和广义线性混合模型之间的区别

机器算法验证混合模式广义线性模型咕噜咕噜广义估计方程

2022-01-25 18:15:49

我想知道混合和非混合 GLM 之间有什么区别。例如，在 SPSS 中，下拉菜单允许用户适应：

analyze-> generalized linear models-> generalized linear models&
analyze-> mixed models-> generalized linear

他们处理缺失值的方式不同吗？

我的因变量是二元的，我有几个分类和连续的自变量。

3个回答

广义线性模型的出现使我们能够在响应变量的分布不正常时（例如，当您的 DV 为二元时）构建回归类型的数据模型。（如果您想更多地了解 GLiM，我在这里写了一个相当广泛的答案，尽管上下文不同，这可能很有用。）但是，GLiM，例如逻辑回归模型，假设您的数据是独立的。例如，想象一个研究孩子是否患有哮喘的研究。每个孩子贡献一份数据指向这项研究——他们要么患有哮喘，要么没有。但是，有时数据不是独立的。考虑另一项研究，该研究着眼于孩子在学年的不同时间点是否感冒。在这种情况下，每个孩子都贡献了许多数据点。有时孩子可能感冒了，以后可能不会感冒，再后来他们可能又感冒了。这些数据不是独立的，因为它们来自同一个孩子。为了适当地分析这些数据，我们需要以某种方式考虑这种非独立性。有两种方法：一种方法是使用广义估计方程（你没有提到，所以我们将跳过）。另一种方法是使用广义线性混合模型. GLiMM 可以通过添加随机效应来解释非独立性（如@MichaelChernick 所述）。因此，答案是您的第二个选项是针对非正态重复测量（或其他非独立）数据。（我应该提到，根据@Macro 的评论，广义线性混合模型包括线性模型作为一种特殊情况，因此可以与正态分布数据一起使用。但是，在典型用法中，该术语表示非正态数据。）

更新： （OP 也询问了 GEE，所以我会写一点关于这三者之间的关系。）

这是一个基本的概述：

一个典型的 GLiM（我将使用逻辑回归作为原型案例）让您可以将独立的二元响应建模为协变量的函数
GLMM 允许您对非独立（或集群）二元响应建模，条件是每个单独集群的属性作为协变量的函数
GEE 允许您将非独立二进制数据的总体平均响应建模为协变量的函数

由于您对每个参与者进行了多次试验，因此您的数据不是独立的；正如您正确指出的那样，“一个参与者中的 [t] 试验可能比与整个组相比更相似”。因此，您应该使用 GLMM 或 GEE。

那么，问题是如何选择 GLMM 或 GEE 是否更适合您的情况。这个问题的答案取决于你的研究主题——特别是你希望做出的推论的目标。正如我上面所说，对于 GLMM，beta 告诉您协变量中一个单位的变化对特定参与者的影响，考虑到他们的个人特征。另一方面，使用 GEE，beta 告诉您协变量中一个单位的变化对整个相关人群的平均响应的影响。这是一个难以掌握的区别，特别是因为线性模型没有这种区别（在这种情况下，两者是同一件事）。

尝试解决这个问题的一种方法是想象在模型中等号两侧对人口进行平均。例如，这可能是一个模型：其中：有一个参数控制响应分布 (，概率，带有二进制数据）在每个参与者的左侧。在右侧，当协变量[s] 等于 0 时，协变量和基线水平的影响有系数。首先要注意的是，任何特定个体的实际截距都不，反而

logit (p_{i}) = β_{0} + β_{1} X_{1} + b_{i}

$\text{logit}(p_i)=\beta_{0}+\beta_{1}X_1+b_i$

logit (p) = \ln (\frac{p}{1 - p}), & b \sim N (0, σ_{b}^{2})

$\text{logit}(p)=\ln\left(\frac{p}{1-p}\right),~~~~~\&~~~~~~b\sim\mathcal N(0,\sigma^2_b)$

p

$p$

β_{0}

$\beta_0$

(β_{0} + b_{i})

$(\beta_0+b_i)$ 。但那又怎样？如果我们假设（随机效应）是正态分布的，平均值为 0（正如我们所做的那样），当然我们可以毫无困难地对这些进行平均（它只是）。此外，在这种情况下，我们对斜率没有相应的随机效应，因此它们的平均值只是。所以截距的平均值加上斜率的平均值必须等于左侧不幸的是，没有。问题是在这两者之间是，它是非线性的

b_{i}

$b_i$

β_{0}

$\beta_0$

β_{1}

$\beta_1$

p_{i}

$p_i$

logit

$\text{logit}$ 转型。（如果变换是线性的，它们将是等价的，这就是为什么线性模型不会出现这个问题。）下图清楚地说明了这一点：在此处输入图像描述

想象这个图表示一个小类概率的基础数据生成过程的学生将能够通过关于该主题的特定小时数的某主题的测试。每条灰色曲线代表其中一名学生在不同教学量下通过考试的概率。粗体曲线是整个班级的平均值。在这种情况下，额外一小时的教学对学生属性的影响是

β_{1}

$\beta_1$ ——每个学生都一样（也就是说，没有随机斜率）。但请注意，学生的基线能力在他们之间有所不同——可能是由于智商等因素的差异（即存在随机截距）。然而，整个班级的平均概率与学生不同。明显违反直觉的结果是：额外的一小时教学可以对每个学生通过考试的概率产生相当大的影响，但对通过考试的学生的可能总比例影响相对较小。这是因为一些学生可能已经有很大的通过机会，而另一些学生可能仍然没有多少机会。

您应该使用 GLMM 还是 GEE 的问题是您要估计这些函数中的哪一个。如果您想了解给定学生通过的概率（例如，如果您是该学生或该学生的家长），您需要使用 GLMM。另一方面，如果您想了解对人口的影响（例如，如果您是教师或校长），您可能需要使用 GEE。

有关此材料的另一个更详细的数学讨论，请参阅@Macro 的此答案。

关键是引入随机效应。Gung的链接提到了它。但我认为应该直接提及。这是主要区别。

我建议你也检查一下我前段时间问的一个问题的答案：

通用线性模型与广义线性模型（带有恒等链接函数？）

其它你可能感兴趣的问题

上一篇所有模拟方法都是蒙特卡罗的某种形式吗？下一篇ROC 曲线下面积与整体精度