数据挖掘 - 从随机森林中获得见解::变量重要性分析 - 吾爱随笔录

数据挖掘机器学习 r 随机森林预测重要性

2022-02-17 00:21:37

我对我的面板数据（特定时期的电视观看）运行不同的重要性，其中包括旧面板（面板 0）和新面板（面板 1）

我有兴趣了解基于面板的观看差异以及地区等人口统计数据。我使用以分钟为单位的平均每日总观看次数作为目标变量，并选择年龄组、地区和大城市作为 R 中的预测变量（按面板分组/重复（0 和 1））

我在 R 中可视化了结果，每个图表的 Y 轴是预测概率，X 轴显示每个变量的值。我们如何解释结果以将其转化为可操作的洞察力？

换句话说，绘制均值（预测）与绘制均值（实际）有什么区别？以及如何从中得出结论？

1个回答

有许多不同的方法可以查看随机森林的变量重要性。对他们的一个很好的解释

变量重要性度量

最基本的方法是查看变量被包含在随机森林中的树中的次数。这有一个问题，它不包括变量对每棵树的影响有多大
对此的改进是计算在将变量添加到树时变量在树中引起的杂质减少。这是importance()RandomForest R 库中函数的默认度量。这具有偏向于连续变量和具有高肉体性的变量的问题。
另一种方法是排列重要性。它的工作原理是它对一列数据中的变量进行洗牌并计算准确性的降低。在 R 中，这是importance(type = 1). 这是一个很好的度量，但是它需要对特征进行归一化以获得最佳精度（如本文所示）。它有点慢，但仍然相当快。
最后一种方法是下拉列方法。这通过删除一个特征然后计算在所有特征上训练随机森林后准确度降低了多少。这是最慢但最准确的。

这些方法都会给出一个特性列表，并衡量它的好坏。这将使您了解随机森林的性能将如何因该功能而改变。

即您可能会发现年龄是预测观看时间的最重要特征。然后，您可以查看年龄与观看时间的图表，以了解这两个变量如何相互作用。

使用 drop column 方法时，可能会发现删除特征会提高准确度，因为准确度的降低是负值。

适用于由您决定的问题领域以及您尝试使用此模型解决的现实世界问题。

希望这可以帮助：）

其它你可能感兴趣的问题