决策树如何处理拆分中的未知类别?

数据挖掘 机器学习 随机森林 决策树
2021-10-11 00:56:13

我想到了这样一种情况,即使用数据集训练决策树,其中一个类别只有三个可能的值:A、B 和 C。

因此,据我了解,该类别的节点将分为三个部分:A、B 和 C。

如果该特征的观察结果为空,或者如果在测试集中出现该类别的值 D,会发生什么?

决策树是否默认保留其中一个拆分来处理这种情况?

1个回答

这个问题有两个角度,从数学或机器学习的角度和从技术的角度。从技术角度来看,这取决于决策树的实现。未见值与缺失值没有太大区别,例如 sklearn 不能很好地处理未知值,并且会在未见或未知值上失败。其他树实现可能会更好地处理这个问题。

从数学或机器学习的角度来看,如果不做一些假设,你当然无法解决这个问题。但是,您可以假设未知或看不见的值是平均值。有了这个假设,您可以在出现未知值的拆分上遵循两条路径。然后,您从拆分中收集两个结果,并通过那里发生的训练样本数对它们进行加权。这样,您仍然可以对这些未知值进行预测。