随机森林的特征重要性和皮尔逊相关系数有什么区别

数据挖掘 随机森林
2021-10-07 17:59:56

我有以下业务领域。我有一个具有三个输出/标签的产品。输出受到 1000 个程序的影响,每个程序都经过数字化和测量。客户想知道对输出最有影响的程序是什么。

1.从皮尔逊相关系数我们可以了解两个变量的关系,比如1是成比例的,-1是负比例的,0是没有关系的。所以我可以找到Pearson相关系数的最大值来找到更有影响力的程序。

2.从随机森林算法中,我可以知道最重要的特征重要性。所以我也可以确定最有影响力的程序。

哪一个更好?

2个回答

Pearson 相关性捕获输入变量和目标变量之间的线性关系。因此,这只对连续输入和连续目标变量有意义,而不是对具有二进制/分类输出的连续输入有意义。当您增加/减少另一个特征时,相关性本质上是衡量一个特征的正/负“变化”。

因此,以这种方式比较输入特征和分类输出之间的关系没有多大意义。您也可以计算每个特征和每个标签的平均输入,并计算它们之间的差异。在 Cross-Validated 上找到了这个答案,它比我能更好地解释这一点。

如果模型表现良好,基于树的模型中的特征重要性更有可能实际识别哪些特征在区分您的类时最有影响力。如何计算这个特征的重要性取决于实现,这篇文章很好地概述了不同的基于树的模型如何计算特征的重要性。

我会说这取决于你想要达到的目标。

要记住几件事:

Pearson 为您提供了相关性,但如果信息是绝对值会怎样——RF 有更好的机会识别这一点。具有明显相关性但绝对值的示例数据:

a = [1,1,1,0,0,0, -1,-1,-1]
b = [abs(x) for x in a]

另一方面,RF 重要性仅在预测良好时才相关——无论好对您意味着什么。Pearson R 有一个非常具体的含义,它始终是正确的——两个变量之间存在相关性。