如何跨多重插补数据集汇集自举 p 值?

机器算法验证 置信区间 方差 p 值 引导程序 多重插补
2022-03-10 04:57:38

我关心的问题是,我想从多重插补 (MI) 数据中引导 p 值来估计,但我不清楚如何在 MI 集之间组合 p 值。θ

对于 MI 数据集,获得估计总方差的标准方法使用鲁宾规则。请参阅此处查看汇集 MI 数据集的评论。总方差的平方根用作的标准误差估计。但是,对于某些估计器,总方差没有已知的封闭形式,或者抽样分布不正常。统计量可能不是 t 分布的,甚至不是渐近分布的。θθ/se(θ)

因此,在完整数据情况下,一种替代选择是引导统计量以找到方差、p 值和置信区间,即使采样分布不正常且其封闭形式未知。在 MI 情况下,有两种选择:

  • 跨 MI 数据集汇集自举方差
  • 跨 MI 数据集汇集 p 值或置信界限

第一个选项将再次使用鲁宾规则。但是,我认为这是有问题的,如果具有非正态采样分布。在这种情况下(或更一般地说,在所有情况下),可以直接使用自举 p 值。但是,在 MI 情况下,这将导致多个 p 值或置信区间,需要跨 MI 数据集进行汇总。θ

所以我的问题是:我应该如何在多重插补数据集中汇集多个自举 p 值(或置信区间)?

我欢迎任何关于如何进行的建议,谢谢。

2个回答

我认为这两种选择都会导致正确的答案。一般来说,我更喜欢方法 1,因为它保留了整个分布。

对于方法 1,在每个 MI 解决方案中引导参数然后简单地混合个自举分布以获得最终密度,现在由个样本组成,其中包括插补间变化。然后将其视为传统的引导样本以获得置信区间。对小样本使用贝叶斯引导程序。我知道没有任何模拟工作可以研究这个过程,这实际上是一个待研究的开放问题。kmmk×m

对于方法 2,使用 Licht-Rubin 程序。请参阅如何在多个估算数据集中完成的测试中获得合并的 p 值?

这不是我熟悉的文献,但解决此问题的一种方法可能是忽略这些是自举 p 值这一事实,并查看有关在多重插补数据集中组合 p 值的文献。

在这种情况下,Li、Meng、Raghunathan 和 Rubin (1991)适用。该过程基于来自每个估算数据集的统计数据,并使用因估算导致的信息损失的度量进行加权。他们遇到了与跨插补的统计数据联合分布相关的问题,并且他们做出了一些简化假设。

相关的兴趣是Meng (1994)

更新

Christine Licht, Ch.的论文中描述了跨多重插补数据集组合 p 值的过程。4 . 这个想法,她归因于 Don Rubin,本质上是将 p 值转换为正态分布,然后可以使用 z 统计组合的标准规则跨 MI 数据集进行组合。