当并非所有观察都有数据时使用随机森林

数据挖掘 随机森林
2022-02-21 05:15:29

我有这个给定的数据库:

在此处输入图像描述

我想使用随机森林分类器使用列“index_1”、“index_2”、“index_3”来预测列“y”。

如您所见,列“大小:没有每个观察值的值。

我的问题是:当我没有所有观察的数据时,我仍然可以使用随机森林分类器吗?如果可以,可以吗?我应该给空单元格赋值(例如“noData”)吗?它会损害预测吗?或者也许不需要?

2个回答

理论上,决策树(和随机森林)能够处理数据中的缺失值。但是算法的特定实现是否允许这样做(以及如何在此实现中使用它)取决于特定的包。

由于大小似乎是一个分类变量,您可以继续将所有空白值视为附加变量级别。这与您使用的特定算法无关。