通过随机森林和线性回归的特征重要性是不同的

数据挖掘 特征选择 随机森林 线性回归
2021-10-03 09:31:36

应用 Lasso 对特征进行排序,得到以下结果:

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

请注意,数据集有 3 个标签。不同标签的特征排名相同。

然后将随机森林应用于相同的数据集:

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

请注意,排名与 Lasso 生成的排名非常不同。

如何解释差异?这是否意味着基础模型本质上是非线性的?

1个回答

因此,您的查询是线性回归与随机森林模型衍生变量重要性的比较。

套索通过应用正则化找到线性回归模型系数。在线性回归模型中对变量的重要性进行排序的一种流行方法是分解R2归因于每个变量的贡献。但是由于变量之间的相关性,变量重要性在线性回归中并不简单。请参阅以下参考文献中描述 PMD 方法的文档 (Feldman, 2005)。

另一种流行的方法是平均排序(LMG,1980)。LMG 的工作方式如下:

  • 找到模型中每个预测变量的半偏相关性,例如对于变量 a,我们有:小号小号一个/小号小号一个l. 这意味着要多少R2如果变量增加一个被添加到模型中。
  • 为将变量引入模型的每个顺序计算每个变量的此值,即 {一个,b,C} ; {b,一个,C} ; {b,C,一个}
  • 找到每个订单的半偏相关的平均值。这是平均订购量。

随机森林算法适合多棵树,森林中的每棵树都是通过从数据集中随机选择不同的特征来构建的。每棵树的节点都是通过选择和分裂来建立的,以实现最大的方差减少。在测试数据集上进行预测时,对单个树的输出进行平均以获得最终输出。每个变量在所有树之间进行置换,并计算置换前后的样本外误差差。具有最大差异的变量被认为是最重要的,而具有较低值的变量则不太重要。

与随机森林模型相比,线性回归模型在训练数据上拟合模型的方法非常不同。但是这两个模型都不包含变量之间的任何结构关系。

关于您对因变量非线性的查询:套索本质上是一个线性模型,与基于树的模型相比,它无法对潜在的非线性过程做出良好的预测。您应该能够通过在预留测试集上验证模型性能来检查这一点,如果随机森林表现更好,则底层过程可能是非线性的。或者,您可以在套索模型中包含变量交互效应和使用 a、b 和 c 创建的高阶变量,并验证该模型与仅使用 a、b 和 c 的线性组合的套索相比是否表现更好。如果是这样,那么底层过程可能是非线性的。

参考: