我有一个不平衡的数据集,有 3 个类,1 类的 60%,2 类的 38%,3 类的 2%。
我不想生成更多第 3 类的示例,也无法获得更多第 3 类的示例。
问题是我需要在 RandomForest 和 ExtraTree 之间进行选择(这是作业),并解释为什么我选择其中之一。
所以我选择了随机森林分类器,但我不确定我的假设是否正确。
我选择那个,因为额外树的分裂是随机的,所以选择第 3 类的一些例子的概率很低,并且因为我认为(这是真正的问题)因为 Random 比 Extra tree 具有更高的方差,可能更有用,因为高方差有助于数据集不平衡。
那么这两个假设,尤其是最后一个假设,对吗?我选择正确的随机森林而不是额外的树?
谢谢