多重插补和模型选择

机器算法验证 多重回归 多重插补
2022-02-02 20:33:08

当您有一个要估计的先验线性模型时,多重插补相当简单。但是,当您实际上想要进行一些模型选择时,事情似乎有点棘手(例如,从更大的候选变量集中找到“最佳”的预测变量集 - 我正在特别考虑 LASSO 和使用 R 的分数多项式)。

一个想法是将模型拟合到具有缺失值的原始数据中,然后在 MI 数据集中重新估计该模型,并像往常一样组合估计。但是,这似乎是有问题的,因为您期望有偏见(或者为什么首先要 MI 呢?),这可能导致从一开始就选择“错误”的模型。

另一个想法是通过您在每个 MI 数据集中使用的任何模型选择过程 - 但是如果它们包含不同的变量集,您将如何组合结果?

我的一个想法是堆叠一组 MI 数据集并将它们分析为一个大型数据集,然后您将使用该数据集来拟合单个“最佳”模型,并包含一个随机效应以说明您使用重复测量的事实每次观察。

这听起来合理吗?或者也许是难以置信的天真?非常感谢有关此问题的任何指示(具有多重插补的模型选择)。

4个回答

您可以做很多事情来从多重插补数据中选择变量,但并非所有事情都能产生适当的估计。有关各种可能性的比较,请参见Wood 等人 (2008) Stat Med

我发现以下两步程序在实践中很有用。

  1. 将您喜欢的变量选择方法独立应用于每个m估算数据集。你最终会得到m不同的型号。对于每个变量,计算它在模型中出现的次数。选择那些出现在至少一半的变量m楷模。
  2. 使用 Wald 统计量或似然比检验的 p 值,从m多重估算数据集作为进一步逐步模型选择的标准。

包括预选步骤 1 以减少计算量。有关R中使用mice(). 在 Stata 中,您可以使用mim:stepwise.

这很简单:您可以应用标准 MI 组合规则 - 但在整个估算数据集中不支持的变量的影响将不那么明显。例如,如果未在特定的估算数据集中选择变量,则其估计值(包括方差)为零,这必须反映在使用多重插补时使用的估计值中。您可以考虑自举来构建置信区间以纳入模型选择的不确定性,请查看最近发布的解决所有问题的出版物: http ://www.sciencedirect.com/science/article/pii/S016794731300073X

如果在 m/2 数据集中选择变量或类似的东西,我会避免使用实用的方法,例如选择一个变量,因为推理并不清晰,而且比乍一看更复杂。

我遇到了同样的问题。

我的选择是所谓的“多重插补套索”。基本上它将所有估算的数据集组合在一起并采用组套索的概念:每个候选变量都会生成m个虚拟变量。每个虚拟变量对应一个估算数据集。

然后对所有的m个虚拟变量进行分组。您要么在所有估算数据集中丢弃候选变量的m个虚拟变量,要么将它们保留在所有估算数据集中。

因此,套索回归实际上适用于所有估算的数据集。

检查纸张

Chen, Q. & Wang, S. (2013)。“用于二恶英暴露研究的多重估算数据的变量选择”,医学统计学,32:3646-59。

以及相关的 R 程序

我一直面临着类似的问题——我有一个数据集,我从一开始就知道我想包含所有变量(我对系数感兴趣而不是预测),但我不知道先验应该指定哪些交互。

我的方法是写出一组候选模型,执行多重插补,估计多个模型,然后简单地保存并平均每个模型的 AIC。选择了具有最低平均 AIC 的模型规范。

我考虑过添加一个校正,在其中惩罚 AIC 中的插补间方差。然而,仔细想想,这似乎毫无意义。

这种方法对我来说似乎很简单,但我自己发明了它,而且我不是著名的统计学家。在使用它之前,您可能希望等到人们纠正我(这将是受欢迎的!)或赞成这个答案。