当您有一个要估计的先验线性模型时,多重插补相当简单。但是,当您实际上想要进行一些模型选择时,事情似乎有点棘手(例如,从更大的候选变量集中找到“最佳”的预测变量集 - 我正在特别考虑 LASSO 和使用 R 的分数多项式)。
一个想法是将模型拟合到具有缺失值的原始数据中,然后在 MI 数据集中重新估计该模型,并像往常一样组合估计。但是,这似乎是有问题的,因为您期望有偏见(或者为什么首先要 MI 呢?),这可能导致从一开始就选择“错误”的模型。
另一个想法是通过您在每个 MI 数据集中使用的任何模型选择过程 - 但是如果它们包含不同的变量集,您将如何组合结果?
我的一个想法是堆叠一组 MI 数据集并将它们分析为一个大型数据集,然后您将使用该数据集来拟合单个“最佳”模型,并包含一个随机效应以说明您使用重复测量的事实每次观察。
这听起来合理吗?或者也许是难以置信的天真?非常感谢有关此问题的任何指示(具有多重插补的模型选择)。