数据挖掘 - 在不平衡数据集中，随机森林或额外树之间哪个最好？ - 吾爱随笔录

我有一个不平衡的数据集，有 3 个类，1 类的 60%，2 类的 38%，3 类的 2%。

我不想生成更多第 3 类的示例，也无法获得更多第 3 类的示例。

问题是我需要在 RandomForest 和 ExtraTree 之间进行选择（这是作业），并解释为什么我选择其中之一。

所以我选择了随机森林分类器，但我不确定我的假设是否正确。

我选择那个，因为额外树的分裂是随机的，所以选择第 3 类的一些例子的概率很低，并且因为我认为（这是真正的问题）因为 Random 比 Extra tree 具有更高的方差，可能更有用，因为高方差有助于数据集不平衡。

那么这两个假设，尤其是最后一个假设，对吗？我选择正确的随机森林而不是额外的树？

谢谢