任何人都可以解释多重共线性对决策树算法(分类和回归)的影响。我已经进行了一些搜索,但无法找到正确的答案,因为有人说它会影响它,而另一些人说它不会。
决策树中的多重共线性
数据挖掘
决策树
2021-10-04 10:09:23
2个回答
决策树不对特征之间的关系做任何假设。它只是基于诸如基尼或熵之类的杂质度量,对改进分类的单个特征进行拆分。如果特征 A、B 高度相关,则在 A 上拆分后,在 B 上拆分不会获得/很少的信息。因此它通常会被忽略而有利于 C。
当然,单个决策树很容易受到过度拟合的影响,因此必须限制深度、大量修剪,或者最好使用集成对许多决策树进行平均。此类问题会因许多特征而变得更糟,并且可能还会因协方差而变得更糟,但此问题与多重共线性无关。
请注意,单个决策树本质上是贪心算法——它们将适合遇到的最有效的变量,而将其他可能的变量排除在外。在多重共线性的情况下,这可能意味着该算法很可能不适合“正确”变量,而是适合与正确变量相关的强变量。如果您选择单个决策树是因为您想要一些可以帮助您解释结果的东西,那么解释就不可能完全连贯或令人满意。
如果您没有选择单个决策树以在某种程度上获得可解释的结果,这可能不会打扰您 - 但如果您不关心解释,您似乎更有可能选择集成树方法或其他一些黑盒方法。
其它你可能感兴趣的问题