如何衡量插补技术的性能

数据挖掘 数据挖掘 描述性统计 数据插补
2021-10-15 15:25:30

我想知道如何衡量插补技术的性能。我已经阅读了很多关于此的内容。网络上的大多数文献都是在数据完成后应用分类器。所以这个分类器将用于进行预测。但是,我对使用这样的分类器进行预测不感兴趣。

我想知道插补方法在数据集上的表现如何。我们可以测量这个,例如我的方差、均值、均方误差等。我想知道是否有类似的技术来衡量数据的质量。我将使用数据集进行描述性分析(不用于预测分析,例如训练分类器)

如果我在错误的上下文/角落思考,请纠正我。提前致谢。

最好的祝福

2个回答

我认为您的问题没有答案,因为没有绝对普遍的“好”。一切都取决于您提出的问题和您使用的工具。这就是为什么有很多插补技术的原因。缺失值无法替代。但是,在您的问题和使用的工具给出的限制条件下,您可以考虑不会改变您的答案或至少测量缺失值的某些影响的插补。我将举一些简单的例子。

一种广泛使用的技术是用每个变量的边际中心估计量替换缺失值。如果您的数据中没有缺失模式,这可能适用于决策树等分类器。但是,如果您使用回归研究变量之间的线性关系,则使用此插补会改变您的置信区间。这仅仅是因为它会改变样本方差。

另一种非常复杂的插补方法是使用 EM 算法来拟合方差-协方差矩阵的最大似然估计量。该估计器是无偏的,并且使用此方差协方差矩阵,您可以以无偏的方式恢复线性模型。然后你可以去分析线性关系。但这仅适用于线性和对数线性模型,需要大量数据,并且还需要随机丢失数据,但情况并非总是如此。

另一种是多重插补。您实际上要做的是根据假定的分布随机抽取缺失值的数据。你这样做多次,比如说至少 30 次。您使用传统工具分析每个数据集,然后将这些结果汇总为一组结果。这在数据随机丢失时效果很好,但是很乏味,有时不一致,而且由于随机性,它会产生不同的结果。最终,有时很难找到适当的方法来汇总结果,这取决于您使用的分析。

如果您只想进行描述性分析,那么完全不进行插补可能是个好主意。

更复杂的方法如下:

  1. 您从整个数据集中获取数据而不会丢失值。
  2. 然后在这个数据集中你手动删除数据(试图重现整体缺失的数据模式)
  3. 对于这个具有缺失值的新数据集,您拥有缺失值背后的真实值(因为您手动删除了这些值)
  4. 然后你对这个数据集进行插补(使用你也将用于整个数据集的方法)
  5. 然后将估算值与实际值进行比较
  6. 这可以很好地估计整个数据集可以偏离多远