数据挖掘 - 在 PySpark 中使用随机森林算法进行插补 - 吾爱随笔录 - 问答

在 PySpark 中使用随机森林算法进行插补

数据挖掘随机森林 pyspark 数据插补

2022-03-06 07:27:50

我想知道如何使用随机森林算法来估算数据集中的缺失值。它应该可以很好地处理缺失值，但我不确定如何处理这些缺失值以及 RF 插补在 PySpark 中的工作方式。

1个回答

您可以执行以下操作：使用所有其他特征作为输入，使用缺失数据作为标签。

使用列中填充数据的所有行进行训练，并对其他没有的行进行分类。使用随机森林预测的值作为后续模型和转换中该字段的值。

其它你可能感兴趣的问题

上一篇什么 Kernel 适合以下数据进行 SVM 分类？下一篇处理大df中的分类变量