我有一个严重不平衡的多类文本分类问题:一个类是非常可能的先验(P
),而其余四个几乎同样不可能(I1
to I4
)。我使用单个多类随机森林进行了许多实验,试图一次对所有类进行建模(目标是优化负对数似然)。
然而,该特定问题的严重不平衡结构让我认为,更好的策略是将其分解为层次结构,将不可能的类合并为一个(I
):可以使用第一级 RF 来建模P
vsI
二元问题,而二级RF可以专注于专业的四类问题。然后很容易将两个模型的输出合并为一个。
我的直觉是这种分解应该很有效,因为每个模型的任务都比整体模型更简单,训练信息更多(即在更广泛和更不均匀的类别中被稀释更少)。但即使我非常小心地使我的两个实现非常相似和可比,我发现单个多类模型明显优于分层模型,这与我的直觉相反。我想知道是否有办法理解这个结果。