如果在叶节点两个类有相同数量的样本会发生什么?

数据挖掘 机器学习 scikit-学习 决策树 机器学习模型
2021-10-04 09:54:11

我分析了一个具有三个特征的小数据集,所以我将决策树的 max_depth 保持为 3,这样做我发现它很有趣,有一个叶子节点,两个类的样本数量相等,决策树选择一个班级,现在我很想知道在这种情况下如何决定班级,是随机的还是其他一些标准,我附上了图片来解释我的情景决策树模型

1个回答

这是一个实现细节,我不一定会依赖这种行为,但目前在 sklearn 中,它将选择“第一”类。

predict方法要求概率预测,然后采用 argmax,在平局的情况下采用第一个:
https ://github.com/scikit-learn/scikit-learn/blob/fd237278e/sklearn/tree/_classes.py #L403
https://numpy.org/doc/stable/reference/generated/numpy.argmax.html