我尝试使用监督方法评估几种 NA 插补方法:我克隆了没有 NA 的原始数据帧,人为地将 NA 插入到生成的数据帧中,并对后者应用插补。
现在,我想通过将估算的新 DF 与原始 DF 进行比较来评估估算。我想知道最好的方法是什么;例如,是否有任何距离方法可以应用于原始/估算的 DF 对?
(我的 DF 仅包含数字数据,但处理因子变量的解决方案也特别方便)。
我尝试使用监督方法评估几种 NA 插补方法:我克隆了没有 NA 的原始数据帧,人为地将 NA 插入到生成的数据帧中,并对后者应用插补。
现在,我想通过将估算的新 DF 与原始 DF 进行比较来评估估算。我想知道最好的方法是什么;例如,是否有任何距离方法可以应用于原始/估算的 DF 对?
(我的 DF 仅包含数字数据,但处理因子变量的解决方案也特别方便)。
如果我们想检查插补效率,我们可能应该只计算插补值的性能。实际上,性能取决于缺失值的百分比。
这不一定是距离,但对于一列潜在的 NA,您可以做的是以下模式。让我们称其为,其余的无论如何都是已知的。我们将有三个选项,保留完整的原始(最佳情况),以多种方式估算人为添加的 NA(现实情况)和删除整个列(悲观情况)。现在我们知道了最佳情况的效果如何,以及如果我们只删除整列会发生什么。我们只是衡量我们想要优化的东西,例如 MSE。我们的插补方法通常在最佳情况和最坏情况之间具有性能。然后,您可以通过将其置于最坏情况和最佳情况之间的一条线上来量化您的插补方法。