多重插补后*更小的标准误差?

机器算法验证 多重插补 有效值
2022-04-20 23:58:52

我有 1771 个观察值,其中 30% 的 x1 缺失数据(是:否),并且 26 个其他变量(连续变量和因子的混合)中没有其他缺失值。

我在 R 中使用分位数回归,有和没有输入 x1 的值。y ~ X1 的参数估计值相似,但 SE 实际上比使用估算数据估计的模型更小。无论百分位数如何,这似乎都是正确的。确实做错了什么(我倾向于这个方向)还是在合理的情况下会发生这种情况?很高兴提供更多细节。非常感谢。

library(rms)

imputes <- aregImpute(formula, data, n.impute = 100, tlinear = FALSE,  nk = 5)

> qrtest # WITH IMPUTATION

Quantile Regression     tau: 0.5

fit.mult.impute(formula = y ~ x1, fitter = Rq, xtrans = imputes, 
                data = workDf, tau = 0.5)

               Coef      S.E.    t      Pr(>|t|)
Intercept      3560.0000 21.9590 162.12 <0.0001 
x1=Yes         -170.0000 29.7172  -5.72 <0.0001 


> summary(qrtest2) # NO IMPUTATION

Call: rq(formula = y ~ x1, tau = 0.5, data = workDf)

tau: [1] 0.5

Coefficients:
              Value      Std. Error t value    Pr(>|t|)  
(Intercept)   3600.00000   27.94167  128.83985    0.00000
x1            -200.00000   36.46074   -5.48535    0.00000 

注1:

也许是一个线索,从这里

fit.mult.impute 警告用户,当拟合例程不是来自 rms 时,标准误差和显着性检验仅基于最后拟合的模型

虽然没有这样的警告,因为它使用 Rq 而不是 rq 作为装配工。此外,按照建议的匹配计算 SE。

注 2:使用 rms::ols 进行插补会导致更大的SE,正如预期的那样,比没有插补的 ols。

注 3:这不是使用不同标准误差的结果。

3个回答

肯定做错了什么吗?

不,正如 Jonathan Bartlett 在他的回答中所说,由于与完整案例相比样本量更大,使用多重插补时较小的标准误差并不罕见。它们可能更小的程度取决于插补模型中使用了多少辅助变量,以及它们与被插补的变量之间的关联有多强以及插补的数量。

一个简单的模拟可以证明这一点:

require(mice)
require(MASS)

set.seed(1)

# simulate some multivariate normal data
(Sigma <- matrix(c(10,4,0.1,4,6,4,0.1,4,5),3,3))
mu <- c(100,40,30)
N <- 2000
dt <- data.frame(mvrnorm(n=N, mu, Sigma))
names(dt) <- c("Y","X1","X2")

m0 <- summary(lm(Y~X1,data=dt))  # this model represents the "truth"

# make 30% MCAR missingness in X1
dt$X1[sample(1:N,N*0.3,replace=F)] <- NA

m1 <- summary(lm(Y~X1,data=dt)) # this model is for complete cases only

imp <- mice(dt)
fit <- with(imp, lm(Y~X1))

m2 <- summary(pool(fit)) # this model is after imputation with mice defaults

那么我们有以下标准错误X1

真相:

print(m0$coefficients[[4]])
[1] 0.02508949

完整案例:

print(m1$coefficients[[4]])
[1] 0.0304495

估算:

print(m2[2,2])
[1] 0.02607166

是的,这当然是可能的。如果 Y 和 X1 以外的变量可以预测您正在插补的 X1 变量,则多重插补将允许您提取此信息并使用它从具有 X1 的参数中获取有关目标参数的信息(X1 上的 Y 回归)失踪。例如,假设 X2 与 X1 高度相关。然后,多重插补将能够以相对较小的不确定性来插补缺失的 X1 值,并且您的标准误差(相对于基于较小样本量的完整案例分析)应该会下降。

我认为这可能会发生,即使你没有做错任何事。如果插补过程非常强,则添加的 N 将比添加的变异具有更大的影响。

如果将多重插补与单一插补进行比较,我认为 SE 在 MI 中必须更大。

(这只是我的直觉)。