在随机森林论文中,他们描述了一种衡量变量重要性的好方法——获取验证数据、测量错误率、置换变量并重新测量错误率。
问题 - 为什么该方法特定于随机森林?我知道在其他分类器(SVM、LR 等)中我们没有 OOB 的概念,但我们当然可以使用常规的训练验证拆分。
我在这里想念什么?为什么这种方法不是一种常见的做法?
在随机森林论文中,他们描述了一种衡量变量重要性的好方法——获取验证数据、测量错误率、置换变量并重新测量错误率。
问题 - 为什么该方法特定于随机森林?我知道在其他分类器(SVM、LR 等)中我们没有 OOB 的概念,但我们当然可以使用常规的训练验证拆分。
我在这里想念什么?为什么这种方法不是一种常见的做法?
任何袋装学习器都可以生成随机森林重要性度量的类似物。
您无法在一个常见的交叉验证方案中获得这种特征重要性,其中所有特征都一直在使用。
随机 Forrest 和其他结合 bagging 的技术使用的事实是,为当前树绘制的 bootstrap 样本不包括一些数据点,即所谓的 Out-Of-Bag 样本 (OOB)。由于这些样本不用于构建当前树,因此它们可用于评估它而没有过度拟合的风险。使用其他通常不会像决策树(例如 SVM)那样受到不稳定性影响的监督学习技术,您通常不会绘制自举样本,因此您无法以这种方式估计变量的重要性。
然而,用不同的变量子集训练模型并使用 k 折交叉验证评估其性能的方法也是完全有效的,在文献中称为 Wrapper 方法。例如,一种流行的 SVM 特征选择技术是递归特征消除(参见https://pdfs.semanticscholar.org/fb6b/4b57f431a0cfbb83bb2af8beab4ee694e94c.pdf)