何时使用某些指标来拆分决策树?

数据挖掘 机器学习 决策树
2022-03-03 19:10:13

所以我最近才了解了决策树,以及在训练树时确定最佳分割的不同指标。我似乎无法找到关于在某些情况下使用哪个指标的任何信息,或者哪个指标更适合用于某些类型的数据?

我比较的是:

  • 卡方
  • 基尼杂质
  • 基尼指数(基尼系数)
  • 方差
  • 信息增益
  • 信息增益率

我什么时候应该使用哪些,或者两者之间是否存在微不足道的区别?

1个回答

这实际上不是关于决策树的问题,而是关于差异度量的属性的问题。如果您发现决策树的最终性能对于不同的指标存在显着差异,我会感到惊讶,但如果您确实发现了很大差异,请发表评论!

所以我认为你在这里选择什么并不重要,但是例如,卡方数值具有特定含义,仅当数据呈正态分布时才有效。如果不是,那么卡方可以人为地变大或变小。但是最好的分割可能是卡方最低的分割,所以这就是为什么我认为不会有很大的影响,即使你的数据不是正态分布的。

关于基尼系数:给定的拆分会导致您与真实情况进行比较的两个样本。基尼系数对小样本有向下的偏差,因此如果拆分后的样本之一很小,那么您的度量就会有偏差。这不是很好,所以可能不要在决策树中使用基尼系数。