对 OLS 中的缺失数据使用可用对方法

机器算法验证 最小二乘 缺失数据 数据插补
2022-04-06 12:03:14

我对使用成对协方差矩阵估计器处理 OLS 中缺失的协变量数据重新产生了兴趣,即在计算方差和协方差时使用所有可用的变量对。这要归功于最近的一篇论文:http ://heather.cs.ucdavis.edu/Missing.pdf 。“使用所有可用的对”方法比对大型数据集的多重插补要快得多。

在决定如何进行计算时,有几种可能的排列

  • 数据是否居中并在事后估计截距(如上述论文中所做的那样)与同时估计所有斜率的截距(这更容易处理)
  • 是否在 demoninators 中使用而不是n1n

X'Y 时使用原始数据建立计算,然后使用标准其中包括一列 s 用于截距. 这种方法更通用,可以用于其他模型,例如逻辑。XXXY(XX)1XYX1

有谁知道一种方法优于其他全对方法的原因?换句话说,最好的全对方法的细节是什么?

1个回答

事实证明,在 Little & Rubin 的《缺失数据分析》一书的第 3 章第 4 节中对这些方法进行了简要讨论。

Matthai (1951) 和 Wilks (1932) 讨论了可用的案例协方差估计量。他们都建议对协方差估计使用自由度校正,其中个、个协方差的可用对数。60 年代和 80 年代的研究似乎表明,可用对方法仅在相当狭窄的一组条件下才能相当好地工作:特别是,数据应该是 MCAR,并且相关性应该是适度到小的。Kim & Curry 1977、Van Praag Dijkstra 和 Van Velzen 1985、Haitovsky 1968、Van Guilder 1981)。njk1njkjk

不满足理想条件时的一些不良副作用是相关系数超过 -1、1 范围、奇异协方差矩阵。如果这是可能的,那么在没有一些特别修正的情况下可能无法计算Little & Rubin 给出的反例如下:(XTX)1

y1 y1 y3
 1  1 NA
 2  2 NA
 3  3 NA
 4  4 NA
 1 NA  1
 2 NA  2
 3 NA  3
 4 NA  4
NA  1  4
NA  2  3
NA  3  2
NA  4  1

可用的配对分析表明,从 y1 到 y2 的相关性为 1,从 y1 到 y3 的相关性为 1。直观地说,这意味着 y2 和 y3 之间的相关性为 1,但估计为 -1。

基于相对简单的数学,我想省略截距并对居中的预测变量/结果数据执行可用的对回归不会对估计值及其 SE 产生净影响。