如何组合多个估算数据集?

机器算法验证 r 数据插补
2022-03-18 10:36:42

我需要一个单一的估算数据集(例如,从估算的国家人均收入数据创建一个国家组虚拟变量)。R 提供了用于创建多个估算数据(例如 Amelia)和组合来自多个数据集的结果(如在 MItools 中)的包。我担心的是我是否可以对所有估算数据进行平均以获得单个数据集。如果是这样,我怎么能在 R 中做到这一点?

2个回答

你不能平均数据。由于插补数据中的变量相同,因此您必须附加每个插补数据。例如,如果您有 6 个变量和 1000 个观测值,并且您的插补频率是 5 ,那么您将拥有 6 个变量和 5000 个观测值的最终数据。您使用该rbind函数在 R 中附加数据。例如,如果您有五个估算数据(假设您已经拥有这些数据),您的最终数据将获得为

finaldata <- rbind(data1,data2,data3,data4,data5)

有关详细信息,请参阅此处。

插补后:

每个估算数据的回归系数通常不同;因此该系数是作为所有估算数据的系数的平均值获得的。但是,标准错误还有其他规则。有关详细信息,请参见此处

缺失数据的多重插补模型在实践中很少使用,因为模拟研究表明,真实基础参数位于覆盖区间内的机会并不总是准确描述。我强烈建议根据研究领域的真实数据,基于模拟数据(参数精确已知)对过程进行测试。模拟研究参考https://www.google.com/url?sa=t&source=web&rct=j&ei=Ua4BVJgD5MiwBMKggKgP&url=http://www.ssc.upenn.edu/~allison/MultInt99.pdf&cd=13&ved=0CCEQFjACOAo&usg=AFQjCNF1Rg6SbFPwLv5n3jYIVNA_iTMPCg&sig2 =d2VORWbqTNygdM6Z51TZEg

我怀疑对缺失数据使用五个简单/朴素的模型可能会更好地产生更少的偏差和准确包含真实基础参数的覆盖区间。与其合并参数估计,不如通过使用贝叶斯技术做得更好(参见https://www.google.com/url?sa=t&source=web&rct=j&ei=mqcAVP7RA5HoggSop4LoDw&url=http: //gking.harvard.edu/files/gking/files/measure.pdf&cd=5&ved=0CCUQFjAE&usg=AFQjCNFCZQwfWJDrrjzu4_5syV44vGOncA&sig2=XZUM14OMq_A01FyN4r61Zw )。

是的,对标准缺失数据插补模型和引用来源的支持并不多,例如,http ://m.circoutcomes.ahajournals.org/content/3/1/98.short?rss=1&ssource=mfr :“我们描述了缺失数据分析的一些背景,并批评了容易出现严重问题的临时方法。然后我们专注于多重插补,其中首先用几组似是而非的值填充缺失的情况,以创建多个完整的数据集。 ..” 我会在似是而非的模型之后插入“(?)”,例如,通常最好将其描述为产生似是而非的预测。但是,将因变量 y 本身作为自变量合并的模型(所谓的校准回归)可能更好地满足此特征。