数据挖掘 - 如何为离散变量估算缺失值？ - 吾爱随笔录

如何为离散变量估算缺失值？

数据挖掘机器学习数据挖掘缺失数据数据插补

2022-02-24 15:16:02

如何为离散变量（例如对应于计数的变量）估算缺失值（不使用模式）。

2个回答

除了@Media 提到的方法，这里还有一些：

使用来自其他变量的信息进行估算

该方法是基于目标变量创建一个（多类）模型。这样就可以预测缺失值。

这些步骤可能是：

在要估算的变量中没有缺失值的子集数据
使用预测模型对数据进行机器学习
使用创建的模型中的缺失值预测数据

聚类

缺失值是否主要与变量组合有关？无监督方法可能会有所帮助。

使用 randomForest 的示例： https ://stats.stackexchange.com/questions/107530/using-cluster-information-in-multiple-imputation

领域知识

如果我们知道缺失值的原因，我们可以将缺失值分配到适当的级别。例如，调查数据是从网络收集的，其中给定的选项不适用于某些情况，因此留空。在这种情况下，最好将其保留为单独的值。

执行

有一些 R 包可以为您估算数据；

老鼠
阿米莉亚
森林小姐
混杂
米

https://www.analyticsvidhya.com/blog/2016/03/tutorial-powerful-packages-imputing-missing-values/

这取决于，如果您具有该特征的分布，您可以对该特征进行边际分布，其解释是使用该特征的预期值。如果您没有分布，您可以将手头的样本的平均值用于那些对该特征具有价值的样本，并为那些没有的样本添加平均值。另一种解决方案是分离每个类的数据，并找到那些具有值的数据样本的特征的平均值，并将平均值放入相应类中没有值的每个条目中。

其它你可能感兴趣的问题

上一篇NLP 对单词类别进行分组下一篇如何操作这个小于/大于的列？