有人可以实际解释基尼杂质与信息增益(基于熵)背后的基本原理吗?
在使用决策树时,哪个指标更适合在不同场景中使用?
有人可以实际解释基尼杂质与信息增益(基于熵)背后的基本原理吗?
在使用决策树时,哪个指标更适合在不同场景中使用?
基尼杂质和信息增益熵几乎相同。人们确实可以互换使用这些值。以下是两者的公式:
如果有选择,我会使用 Gini 杂质,因为它不需要我计算计算密集型的对数函数。也可以找到其解的闭合形式。
在使用决策树时,哪个指标更适合在不同场景中使用?
基尼杂质的原因如上所述。
因此,在 CART 分析方面,它们几乎相同。
通常,无论您使用 Gini impurity 还是 Entropy,您的表现都不会改变。
Laura Elena Raileanu 和 Kilian Stoffel 在“基尼指数与信息增益标准之间的理论比较”中对两者进行了比较。最重要的评论是:
有人告诉我,这两个指标都存在,因为它们出现在不同的科学学科中。
基尼适用于连续属性,熵适用于类中出现的属性
基尼是为了最小化错误分类
熵是为了探索性分析
熵的计算速度有点慢