随机森林中使用哪些样本来计算变量重要性?

机器算法验证 引导程序 随机森林
2022-04-13 13:03:53

随机森林的每棵树都是在随机引导样本上学习的。因此,考虑到树的数量很大,很可能每个数据集的观察都用于形成至少一棵森林的树,因此不存在可用于评估性能的“独立”样本随机森林。

那么随机森林使用哪些样本来计算变量重要性?据我了解,不能保证存在独立于形成树的样本。

1个回答

在每棵树长大后,给定预测变量的值在袋外样本(不属于自举样本的唯一观察值的三分之一)和修改后的 OOB 上的树的预测误差中随机排列样本与未触及的OOB样本上的树的预测误差进行比较。

对所有输入变量重复此过程,并对所有树进行平均。最后,变量的分数与它们的排列引起的准确度的总体下降成正比。

最重要的变量是在“加噪”时导致准确性损失最大的变量(参见Breiman 2001)。

简而言之,您在树级别确实有独立样本。首先在树级别计算给定变量的重要性,然后在所有树上汇总分数以获得变量的最终全局重要性分数。