我想知道如何使用随机森林算法来估算数据集中的缺失值。它应该可以很好地处理缺失值,但我不确定如何处理这些缺失值以及 RF 插补在 PySpark 中的工作方式。
在 PySpark 中使用随机森林算法进行插补
数据挖掘
随机森林
pyspark
数据插补
2022-03-06 07:27:50
1个回答
您可以执行以下操作:使用所有其他特征作为输入,使用缺失数据作为标签。
使用列中填充数据的所有行进行训练,并对其他没有的行进行分类。使用随机森林预测的值作为后续模型和转换中该字段的值。
其它你可能感兴趣的问题