我想从头开始实现我自己的 CART 决策树版本(以了解它是如何工作的),但我在使用 Gini 指数时遇到了一些问题,用于表示数据集的纯度。
更准确地说,我不明白在回归树的情况下基尼指数应该如何工作。
我能找到的一些描述将其描述为:
gini_index = 1 - sum_for_each_class(probability_of_the_class²)
其中probability_of_the_class 只是一个类中元素的数量除以元素的总数。
但是在我有连续变量的回归的情况下,我不能使用这个定义。
我在这里误解了什么吗?