如何在多重插补后汇集后验均值和可信区间?

机器算法验证 贝叶斯 混合模式 缺失数据
2022-02-09 04:08:22

我使用多重插补来获得一些完整的数据集。

我在每个完整的数据集上使用了贝叶斯方法来获得参数的后验分布(随机效应)。

如何组合/合并此参数的结果?


更多背景:

我的模型在学校中聚集的个别学生(每个学生一次观察)的意义上是分层的。我已经MICE对我的数据进行了多次插补(在 R 中使用),其中我将school其作为缺失数据的预测变量之一 - 尝试将数据层次结构合并到插补中。

我已经为每个完整的数据集拟合了一个简单的随机斜率模型(MCMCglmm在 R 中使用)。结果是二元的。

我发现随机斜率方差的后验密度“表现良好”,因为它们看起来像这样: 在此处输入图像描述

对于这种随机效应,我如何组合/汇集来自每个估算数据集的后验均值和可信区间?


更新1

根据我目前的理解,我可以将鲁宾规则应用于后验均值,以给出乘法估算的后验均值 - 这样做有什么问题吗?但我不知道如何结合 95% 的可信区间。另外,由于我对每个插补都有一个实际的后验密度样本 - 我可以以某种方式将这些结合起来吗?


更新2

根据@cyan 在评论中的建议,我非常喜欢简单地组合从每个完整数据集中获得的后验分布样本的想法,这些样本来自多重插补。但是,我想知道这样做的理论依据。

2个回答

对于可以通过分布的参数描述充分描述的行为特别好的后验,您可能可以简单地采用最能描述您的后验的均值和方差,然后从那里开始。我怀疑这在很多情况下可能就足够了,因为你没有得到真正奇怪的后验分布。

如果您使用 stata,则有一个称为“mim”的程序,它在使用混合效应模型进行插补后汇集数据。我不知道它是否在 R 中可用。