如何为离散变量估算缺失值?

数据挖掘 机器学习 数据挖掘 缺失数据 数据插补
2022-02-24 15:16:02

如何为离散变量(例如对应于计数的变量)估算缺失值(不使用模式)。

2个回答

除了@Media 提到的方法,这里还有一些:

使用来自其他变量的信息进行估算

该方法是基于目标变量创建一个(多类)模型。这样就可以预测缺失值。

这些步骤可能是:

  • 在要估算的变量中没有缺失值的子集数据
  • 使用预测模型对数据进行机器学习
  • 使用创建的模型中的缺失值预测数据

聚类

缺失值是否主要与变量组合有关?无监督方法可能会有所帮助。

使用 randomForest 的示例: https ://stats.stackexchange.com/questions/107530/using-cluster-information-in-multiple-imputation

领域知识

如果我们知道缺失值的原因,我们可以将缺失值分配到适当的级别。例如,调查数据是从网络收集的,其中给定的选项不适用于某些情况,因此留空。在这种情况下,最好将其保留为单独的值。

执行

有一些 R 包可以为您估算数据;

  • 老鼠
  • 阿米莉亚
  • 森林小姐
  • 混杂

https://www.analyticsvidhya.com/blog/2016/03/tutorial-powerful-packages-imputing-missing-values/

这取决于,如果您具有该特征的分布,您可以对该特征进行边际分布,其解释是使用该特征的预期值。如果您没有分布,您可以将手头的样本的平均值用于那些对该特征具有价值的样本,并为那些没有的样本添加平均值。另一种解决方案是分离每个类的数据,并找到那些具有值的数据样本的特征的平均值,并将平均值放入相应类中没有值的每个条目中。