决策树和随机森林可能更适合或不适合解决数据集中标签(或类别)不平衡的监督学习问题。例如,请参阅文章Using Random Forest to Learn Imbalanced Data、这个 Stats SE 问题和这个 Medium 帖子。这些来源的信息似乎不一致。
决策树学习算法如何应对不平衡的类别?
决策树和随机森林可能更适合或不适合解决数据集中标签(或类别)不平衡的监督学习问题。例如,请参阅文章Using Random Forest to Learn Imbalanced Data、这个 Stats SE 问题和这个 Medium 帖子。这些来源的信息似乎不一致。
决策树学习算法如何应对不平衡的类别?
决策树学习器本身并不是处理不平衡数据的好方法。默认情况下,最常用的算法不会尝试解决这个问题。
如果您仔细查看您发布的三个来源,您会发现他们实际上都同意这一点。
其中两个来源实际上提出了通过调整决策树学习算法来解决这个缺点的方法。建议的调整本质上是这些问题的标准解决方案,应用于决策树。
在您引用的第一篇论文中讨论的一个示例技术是更改类的权重。一种低效/近似的方法是增加少数类的示例数量。例如,如果您有 80/20 的拆分,您可以添加每个少数类示例的 3 个新副本以移动到 80/80 = 50/50 拆分。当然,如果您添加新的数据点,您的算法可能需要更长的时间才能运行。相反,您可以只修改优化函数中类的权重。这种方法是特定于算法的,并且取决于您的损失函数,但可以达到相同的效果,只是不需要增加您使用的点数。