我想知道如何衡量插补技术的性能。我已经阅读了很多关于此的内容。网络上的大多数文献都是在数据完成后应用分类器。所以这个分类器将用于进行预测。但是,我对使用这样的分类器进行预测不感兴趣。
我想知道插补方法在数据集上的表现如何。我们可以测量这个,例如我的方差、均值、均方误差等。我想知道是否有类似的技术来衡量数据的质量。我将使用数据集进行描述性分析(不用于预测分析,例如训练分类器)
如果我在错误的上下文/角落思考,请纠正我。提前致谢。
最好的祝福
我想知道如何衡量插补技术的性能。我已经阅读了很多关于此的内容。网络上的大多数文献都是在数据完成后应用分类器。所以这个分类器将用于进行预测。但是,我对使用这样的分类器进行预测不感兴趣。
我想知道插补方法在数据集上的表现如何。我们可以测量这个,例如我的方差、均值、均方误差等。我想知道是否有类似的技术来衡量数据的质量。我将使用数据集进行描述性分析(不用于预测分析,例如训练分类器)
如果我在错误的上下文/角落思考,请纠正我。提前致谢。
最好的祝福
我认为您的问题没有答案,因为没有绝对普遍的“好”。一切都取决于您提出的问题和您使用的工具。这就是为什么有很多插补技术的原因。缺失值无法替代。但是,在您的问题和使用的工具给出的限制条件下,您可以考虑不会改变您的答案或至少测量缺失值的某些影响的插补。我将举一些简单的例子。
一种广泛使用的技术是用每个变量的边际中心估计量替换缺失值。如果您的数据中没有缺失模式,这可能适用于决策树等分类器。但是,如果您使用回归研究变量之间的线性关系,则使用此插补会改变您的置信区间。这仅仅是因为它会改变样本方差。
另一种非常复杂的插补方法是使用 EM 算法来拟合方差-协方差矩阵的最大似然估计量。该估计器是无偏的,并且使用此方差协方差矩阵,您可以以无偏的方式恢复线性模型。然后你可以去分析线性关系。但这仅适用于线性和对数线性模型,需要大量数据,并且还需要随机丢失数据,但情况并非总是如此。
另一种是多重插补。您实际上要做的是根据假定的分布随机抽取缺失值的数据。你这样做多次,比如说至少 30 次。您使用传统工具分析每个数据集,然后将这些结果汇总为一组结果。这在数据随机丢失时效果很好,但是很乏味,有时不一致,而且由于随机性,它会产生不同的结果。最终,有时很难找到适当的方法来汇总结果,这取决于您使用的分析。
如果您只想进行描述性分析,那么完全不进行插补可能是个好主意。
更复杂的方法如下: