多重插补:论文中必须报告的内容

机器算法验证 缺失数据 多重插补 报告
2022-03-27 16:26:00

我只是想知道如果执行了多重插补 (MI),则必须在论文中报告哪些结果:来自完整案例 (CC) 或 MI 的估计值(置信区间 (CI)、P 值)?在 Enders 和 van Buuren 的精彩书籍中我找不到它,尽管有指导如何报告 MI 程序。(如果我错过了,我道歉)。

我查看了Rezvan 2015 评论中的一些文章:多重插补的兴起从这些报告中,一些报告了 MI-,其他 CC-估计和其他尚不清楚。

我自己得出结论,应该报告 MI 估计值(优势比、CI、P 值),原因很简单,只要 MI 合适,我就想要无偏估计。但是基线数据和列联表呢?

这里再次提出具体问题(假设 MI 是合适的):

  1. 必须报告哪些结果(优势比或平均 CI、P 值):来自 CC 的结果或来自 MI 的汇总结果?
  2. 假设我们有一个 2x4 列联表(4 个级别:不明白不确定)并执行一个获得 10 个 MI 数据集的 MI。 -tests的公式计算池化 P 值(例如:van Buuren,第 159 页)。我想报告yes的百分比和绝对数(在括号中),例如 15% (20)。我应该报告哪个:来自完整案例的数字或 10 个百分比和计数的平均值(考虑到所有级别的总数应为 100%,分别为无缺失的总计数)或 MI 插补的一个偶然?χ2
  3. 基线分析:应该使用完整的案例数据集还是合并的 MI 数据集?
1个回答

一般来说,报告计划的初步分析的结果是适当的,可能还报告所有或部分预见的敏感性/支持性分析(取决于空间考虑)和潜在的额外分析,例如同行评审员要求的(例如,在预- 指定完整的案例分析作为审稿人,我会要求报告一些更合适的分析)。MI 分析的结果(估计值、CI 等来自汇总每个插补的分析)确实是要报告的合乎逻辑的事情,以防这是预先指定的分析。

另一个问题是还有什么要报告的,我当然希望在方法中的某个地方使用多重插补方法(输入了哪些变量,是每个时间点纵向的某种插补模型,还是使用某种联合正态性在所有时间联合,描述了多少插补等)。多重插补当然有多种形式和变体,对于读者来说,能够找出所做的事情很重要。

对于列联表或基线特征,对我而言,主要问题是您是否主要尝试描述性地描述数据,或者您是否将其视为人们会比较/做出某种心理推断的东西。两者都有一些价值,首先它可能是最透明的,除了完整案例的汇总统计数据之外,缺失或非缺失值的数量(这当然很常见,尤其是对于基线特征),但一旦它有更多的“让我们在组之间比较这些”的感觉,估算的结果可能更合适。无论哪种情况,都应该对所报告的内容保持透明。在您提到的列联表示例中,所有插补的平均百分比可能是一回事。

顺便说一句,10 个插补是一个非常低的数字。确保 I 类错误控制可能就足够了,但是通过使用更大的数字,您可以避免结果过多地依赖于您指定的伪随机数种子,并且通常会获得一些权力。默认情况下,我倾向于选择 250 到 1000 之类的东西,如果它在计算上不是太昂贵并且跨时间点丢失数据的百分比高达两位数。