机器算法验证 - 所有调整都应该是混合线性效应中的随机效应吗？ - 吾爱随笔录

所有调整都应该是混合线性效应中的随机效应吗？

机器算法验证混合模式调整

2022-03-27 04:24:25

有时有人告诉我，当您执行混合模型时，您不关心估计参数（调整变量）的任何变量都应该是随机效应，无论增加的自由度数量如何。

然而，在大多数在线课程和教程（例如这个）中，这并不是很明确。

让我们以与本教程相同的示例为例：

lmm <- lmer(Mean.Pitch ~ Sex + Social.Rank + (1 | Group), data = starlings,
    REML = FALSE)
summary(lmm)

如果我只对Sex的效果感兴趣，我应该放入Social.Rank随机效果吗？

如果这是真的，它会改变什么？那么，即使没有真正的分组，我是否应该执行混合模型？

2个回答

那是不对的。混合效应模型是随机效应和固定效应的混合。通常，调整随机效应的目的是控制聚类指标或协变量组合，这些指标或协变量的维度如此之高，如果模型中的固定效应不是奇异的，那么固定效应将是不稳定的。从这个意义上说，随机效应是一种最后的手段。

相关数据和模型错误指定是高度相关的，随机效应允许您使用错误指定的模型，但可以借用有关倾向于聚集的个体组的信息，以产生条件独立的残差。如果您设法控制了固定效果中的所有这些属性，则根本不需要随机效果。如果有的话，应该尽可能地控制固定效应，因为推断更具普遍性。

以对异卵双胞胎的研究为例。如果您研究了一种遗传性疾病的表型，然后针对使个体易患该疾病的基因突变 (SNP) 进行了调整，那么尽管进行了设计，但数据现在是独立的，因为双胞胎表现出的唯一“相关性”已得到控制。不需要随机效应表明结果中的双胞胎。

应该在混合效应模型中驱动随机效应规范的首要考虑因素是研究设计。以下是一些示例，说明了设计如何影响模型规范。

示例 1

如果您有一项研究，您从目标患者群体中随机选择患者并在多个时间点测量结果变量（例如，CD4 细胞计数），以及随时间变化和/或随时间变化的预测变量，那么您将希望至少包括随机患者效应（即随机患者截距），以解释患者内重复结果观察的自然嵌套。

示例 2

如果您有一项研究，您从目标医院人群中随机选择一组医院，然后您从每家医院随机选择一组患者，这样每个患者都会为结果变量（例如 CD4 计数）提供多个测量值)，那么您需要在模型中包含（至少）随机医院效应和随机患者效应。

-------------------------------------------------

在第一个示例中，患者是一个随机分组因子。在第二个示例中，医院和患者是随机分组因素，患者嵌套在医院内（因为在医院内随机选择的患者是该医院独有的，不会出现在任何其他医院）。

在某些研究设计中，可能有完全交叉或部分交叉的随机分组因子。例如，您可以进行一项研究，其中一些患者在整个研究期间最终去多家医院就诊，在这种情况下，患者和医院可能会部分交叉随机分组因素。

因此，注意研究设计有助于识别随机分组因子，每个随机分组因子将被允许在模型中拥有自己的一组随机截距——每个随机分组因子水平一个截距。

混合效应模型规范中的第二个考虑因素是考虑模型中的哪些预测变量可以在分组因子的水平上产生变化（或随机）的影响。

对于示例 1，假设我们在所有时间点测量了每位患者的预测血压，在这些时间点我们还测量了结果变量 CD4 细胞计数——每位患者有 4 个时间点（例如，每周一次，总共 4周）。我们还假设我们测量了预测变量的性别. 每位患者的血压值会随着 CD4 细胞计数值的变化而从一周到另一周发生变化。如果我们有理由相信 CD4 计数和血压值之间的关联会因患者而异，那么我们可以允许模型中的血压斜率在患者之间随机变化——我们可以通过包含随机变量来实现这一点模型中血压的影响。对于患者而言，性别值不会从一周变为另一周，因此在我们的模型中无需考虑性别的随机影响。在此示例的上下文中，我们说血压是患者内（或受试者内）的预测变量，而性别是患者之间（或患者之间）的预测变量。

对于示例 2，我们可以有涉及研究中包括的医院的预测变量（例如，医院类型）和/或涉及这些医院内的患者的预测变量（例如，患者性别、患者血压）。例如，患者特定的预测变量可以是患者内预测变量，其值对于同一患者会随场合而变化，也可以是患者间预测变量，其值对每位患者而言随场合而变化，但从一名患者到另一名患者会发生变化. 患者体内的预测因子可能对患者产生不同（或随机）的影响，等等。

因此，在您的模型中包含随机效应最终取决于您的研究设计是否包含任何随机分组因素（例如，患者、医院）以及您是否有预测变量，其影响可以假设在这些随机分组因素的水平上有所不同。

其它你可能感兴趣的问题

上一篇对最大操作的期望下一篇带系数的正态独立随机变量之和