回归决策树中的基尼指数

数据挖掘 决策树
2022-02-09 14:41:46

我想从头开始实现我自己的 CART 决策树版本(以了解它是如何工作的),但我在使用 Gini 指数时遇到了一些问题,用于表示数据集的纯度。

更准确地说,我不明白在回归树的情况下基尼指数应该如何工作。

我能找到的一些描述将其描述为:

gini_index = 1 - sum_for_each_class(probability_of_the_class²)

其中probability_of_the_class 只是一个类中元素的数量除以元素的总数。

但是在我有连续变量的回归的情况下,我不能使用这个定义。

我在这里误解了什么吗?

1个回答

在回归树中,误差平方和 ( SSE ) 是树分裂的标准。第一次拆分基于特征/预测变量及其在训练集中产生最低 SSE值的值。然后以此类推进行进一步的拆分。