如何为离散变量(例如对应于计数的变量)估算缺失值(不使用模式)。
如何为离散变量估算缺失值?
数据挖掘
机器学习
数据挖掘
缺失数据
数据插补
2022-02-24 15:16:02
2个回答
除了@Media 提到的方法,这里还有一些:
使用来自其他变量的信息进行估算
该方法是基于目标变量创建一个(多类)模型。这样就可以预测缺失值。
这些步骤可能是:
- 在要估算的变量中没有缺失值的子集数据
- 使用预测模型对数据进行机器学习
- 使用创建的模型中的缺失值预测数据
聚类
缺失值是否主要与变量组合有关?无监督方法可能会有所帮助。
使用 randomForest 的示例: https ://stats.stackexchange.com/questions/107530/using-cluster-information-in-multiple-imputation
领域知识
如果我们知道缺失值的原因,我们可以将缺失值分配到适当的级别。例如,调查数据是从网络收集的,其中给定的选项不适用于某些情况,因此留空。在这种情况下,最好将其保留为单独的值。
执行
有一些 R 包可以为您估算数据;
- 老鼠
- 阿米莉亚
- 森林小姐
- 混杂
- 米
https://www.analyticsvidhya.com/blog/2016/03/tutorial-powerful-packages-imputing-missing-values/
这取决于,如果您具有该特征的分布,您可以对该特征进行边际分布,其解释是使用该特征的预期值。如果您没有分布,您可以将手头的样本的平均值用于那些对该特征具有价值的样本,并为那些没有的样本添加平均值。另一种解决方案是分离每个类的数据,并找到那些具有值的数据样本的特征的平均值,并将平均值放入相应类中没有值的每个条目中。
其它你可能感兴趣的问题