在 PySpark 中使用随机森林算法进行插补

数据挖掘 随机森林 pyspark 数据插补
2022-03-06 07:27:50

我想知道如何使用随机森林算法来估算数据集中的缺失值。它应该可以很好地处理缺失值,但我不确定如何处理这些缺失值以及 RF 插补在 PySpark 中的工作方式。

1个回答

您可以执行以下操作:使用所有其他特征作为输入,使用缺失数据作为标签。

使用列中填充数据的所有行进行训练,并对其他没有的行进行分类。使用随机森林预测的值作为后续模型和转换中该字段的值。