从随机森林中获得见解::变量重要性分析
数据挖掘
机器学习
r
随机森林
预测重要性
2022-02-17 00:21:37
1个回答
有许多不同的方法可以查看随机森林的变量重要性。 对他们的一个很好的解释
变量重要性度量
最基本的方法是查看变量被包含在随机森林中的树中的次数。这有一个问题,它不包括变量对每棵树的影响有多大
对此的改进是计算在将变量添加到树时变量在树中引起的杂质减少。这是
importance()RandomForest R 库中函数的默认度量。这具有偏向于连续变量和具有高肉体性的变量的问题。另一种方法是排列重要性。它的工作原理是它对一列数据中的变量进行洗牌并计算准确性的降低。在 R 中,这是
importance(type = 1). 这是一个很好的度量,但是它需要对特征进行归一化以获得最佳精度(如本文所示)。它有点慢,但仍然相当快。最后一种方法是下拉列方法。这通过删除一个特征然后计算在所有特征上训练随机森林后准确度降低了多少。这是最慢但最准确的。
解释结果
这些方法都会给出一个特性列表,并衡量它的好坏。这将使您了解随机森林的性能将如何因该功能而改变。
即您可能会发现年龄是预测观看时间的最重要特征。然后,您可以查看年龄与观看时间的图表,以了解这两个变量如何相互作用。
使用 drop column 方法时,可能会发现删除特征会提高准确度,因为准确度的降低是负值。
适用于由您决定的问题领域以及您尝试使用此模型解决的现实世界问题。
希望这可以帮助 :)
其它你可能感兴趣的问题
