机器算法验证 - 应用于多重插补数据的线性模型参数的自举置信区间 - 吾爱随笔录

应用于多重插补数据的线性模型参数的自举置信区间

机器算法验证引导程序异方差多重插补老鼠

2022-04-17 17:34:43

我想为 $\beta$ 在线性模型中

$Y = X\beta + \epsilon$

我观察 $\{X', Y'\}$ 这是 $\{X,Y\}$ 被随机缺失的值污染。 $\epsilon$ 不是高斯的，也不是同方差的。

我建议为 $\beta$ 经过：

生成几个估算数据集 $\{X^i, Y^i\}_{i \in {1, \ldots, N}}$ 比如说，通过链式方程进行多重插补；
构建引导复制 $\hat\beta$ 通过随机选择一个估算数据集，然后基于该数据集，生成案例复制的引导程序 $\hat\beta$ .（为每个单独的复制随机选择一个新数据集）。
使用标准方法从 bootstrap 构建 CI 可以复制 Efron 的偏差校正加速 CI。

这是最好的方法吗？

2个回答

Shao 和 Sitter 1996证明了正确的方法是：

采取引导样本，尊重数据中的依赖关系（见下文）；
对这个样本进行一次插补，估计插补模型并生成一个模型+噪声复制；
对此进行完整的案例分析；
重复 1-3 $B$ 次；
使用引导规则（而不是Rubin 规则）进行组合。

$B$ 必须是 bootstrap-large，而不是 Rubin-large... 500 而不是 5。Shao & Sitter 论文关注的复杂调查数据的最大问题是存在非平凡的依赖关系和独立性存在于复杂的调查数据中。按照设计，各层之间的观察是独立的，而在整个数据集中借用强度的插补违反了这种独立性。根据设计，同一 PSU 内的观察结果是相关的。这两种影响都需要通过引导方案来解决。对于复杂的调查，这需要是复杂的调查引导程序。对于时间序列，这需要是块 bootstrap。

orizon 提出的过程（由 Stef 澄清）可能是正确的，在过去的几年里，我一直在脑海中滚动它，但从来没有机会真正审查它的统计可靠性。

步骤 2 和 3 忽略了一些数据已被估算的事实。因此，分布的自举估计 $\hat\beta$ 会太窄。

鲁宾的汇集规则结合了插补不确定性的内部和之间。尽管此过程假定 $\hat\beta$ 正态分布在总体值附近 $\beta$ ，它实际上对违反正态性非常稳健。

其它你可能感兴趣的问题

上一篇使用 10 折交叉验证中的验证集确定提前停止是否可以？下一篇如何存储（和分析）多答案多选问卷数据