何时使用基尼杂质,何时使用信息增益?

机器算法验证 机器学习 分类 数据挖掘 大车
2022-03-09 06:54:29

有人可以向我解释何时将基尼杂质和信息增益用于决策树吗?你能告诉我什么时候最好使用哪个情况/例子吗?

1个回答

您应该将它们都作为参数调整的一部分进行尝试。

从理论上讲,基尼杂质可最大限度地减少 Brier 分数,而熵/信息增益可最大限度地减少对数损失,因此您感兴趣的那些会有所不同。然而,其他事情,比如每个人在贪婪的树生长中发现多变量效应的可能性有多大,而不是被同样起作用的单变量效应“分心”。即,您可能会从不总是选择“最佳”拆分的杂质度量中获得更好的概括。

在实践中(在 rf 的上下文中,比购物车更多)我发现熵更适用于更干净的低维数据集,在这些数据集你试图尽可能好地拟合更复杂的信号,而 gini 更适用于嘈杂、高维的数据集那些你试图从许多嘈杂的潜在信号中发现一个简单信号的地方。这只是我的经验,几乎肯定不会在所有情况下都成立。

注意:从评论开始,但被删除并移至答案以格式化扩展内容。