在不平衡数据集中,随机森林或额外树之间哪个最好?

数据挖掘 机器学习 阶级失衡 方差 偏见
2022-02-20 15:02:42

我有一个不平衡的数据集,有 3 个类,1 类的 60%,2 类的 38%,3 类的 2%。

我不想生成更多第 3 类的示例,也无法获得更多第 3 类的示例。

问题是我需要在 RandomForest 和 ExtraTree 之间进行选择(这是作业),并解释为什么我选择其中之一。

所以我选择了随机森林分类器,但我不确定我的假设是否正确。

我选择那个,因为额外树的分裂是随机的,所以选择第 3 类的一些例子的概率很低,并且因为我认为(这是真正的问题)因为 Random 比 Extra tree 具有更高的方差,可能更有用,因为高方差有助于数据集不平衡。

那么这两个假设,尤其是最后一个假设,对吗?我选择正确的随机森林而不是额外的树?

谢谢

1个回答

随机森林分类器和额外树都在每个分割点随机采样特征,但由于随机森林是贪婪的,它会尝试在每个节点处找到最佳分割点,而额外树随机选择分割点。

我会选择随机森林,因为它更有可能创建一个解释不平衡类的分裂点,而额外树可能会在数据子集上一遍又一遍地分裂,而不会因为随机分裂点而分离出第 3 类。