简而言之,我的问题是:有没有办法改善 R MICE(数据插补)的运行时间?
我正在处理一个包含(相当随机)缺失数据的数据集(30 个变量,130 万行)。在 30 个变量中,约有 15 个变量中约有 8% 的观测值包含 NA。为了估算丢失的数据,我正在运行 MICE 函数,它是MICE包的一部分。
我的运行时间很慢,即使在一个子集(100,000 行)上,使用 method="fastpmm" 和 m=1 并运行大约 15 分钟。
有没有办法在不损失太多性能的情况下提高运行时间?(mice.impute.mean 非常快,但会丢失重要的信息!)。
可重现的代码:
library(mice)
df <- data.frame(replicate(30,sample(c(NA,1:10),1000000,rep=TRUE)))
df <- data.frame(scale(df))
output <- mice(df, m=1, method = "fastpmm")