具有互补特征的随机森林

数据挖掘 特征选择 随机森林 决策树 相关性
2022-03-11 18:49:06

在我的数据集中,我有 2 个特征不仅相互关联,而且只有在彼此存在的情况下才有意义。例如,一个是尝试任务的次数,另一个是成功的次数。

如前所述,似乎是我单独采取了两个中的一个并没有提供任何信息。我是否应该制定一个方案,如果我在我的射频树中选择其中一个,我会自动包含另一个?

如果是这样,是否可以使用 scikit-learn 的 RF 类来做到这一点?

谢谢!

2个回答

请注意,随机森林(以及一般的决策树)并不假设给定的特征是独立的。相反,在随机森林中从根到叶的一个特定树/分类器的典型分类路径将是例如基于尝试特征的值对成功特征应用不同的规则。因此,正如一条评论所暗示的,该算法将能够识别某些依赖项。

但是,您需要记住,决策树(以及某种意义上的随机森林)仅定义类之间的线性分离。因此,为了增强域空间,您可能希望尝试向算法“提示”一些额外的元特征,以及特征之间可能的语义。例如,您是否考虑过引入成功率(成功率除以尝试次数)作为附加功能?

请注意,不能保证附加功能会有所帮助,即使最简单的了解方法是尝试它们。这样做的原因是算法可能已经能够学习你给它的额外语义。话虽如此,对我来说,随机森林能否“学习”成功率等特征并不明显。

同意@mapto。一个好的决定是进行一些预处理并将两个特征合并为一个新特征。成功部分可能是一个很好的部分,但你也可以自己思考。