在随机森林中使用 LASSO

机器算法验证 分类 随机森林 套索 集成学习
2022-02-04 15:02:27

我想使用以下过程创建一个随机森林:

  • 使用信息增益在数据和特征的随机样本上构建树以确定拆分
  • 如果叶节点超过预定义的深度,则终止叶节点,或者任何拆分都会导致叶数小于预定义的最小值
  • 不是为每棵树分配一个类标签,而是分配叶节点中类的比例
  • 在构建了预定义的数量后停止构建树

这以两种方式颠覆了传统的随机森林过程。一,它使用分配比例而不是类标签的修剪树。第二,停止标准是预定数量的树,而不是一些袋外错误估计。

我的问题是这样的:

对于上述输出 N 棵树的过程,我可以使用带 LASSO 选择的逻辑回归拟合模型吗?有没有人有使用逻辑 LASSO 拟合随机森林分类器和后处理的经验?

ISLE 框架提到使用 LASSO 作为回归问题的后处理步骤,而不是分类问题。此外,在谷歌搜索“随机森林套索”时,我没有得到任何有用的结果。

1个回答

这听起来有点像梯度树提升。boosting的思想是找到一类模型的最佳线性组合。如果我们将一棵树拟合到数据中,我们试图找到最能解释结果变量的树。如果我们改为使用提升,我们试图找到树的最佳线性组合。

然而,使用 boosting 我们效率更高一些,因为我们没有随机树的集合,但是我们尝试构建新的树来处理我们还不能很好预测的示例。

有关这方面的更多信息,我建议阅读统计学习要素的第 10 章:http: //statweb.stanford.edu/~tibs/ElemStatLearn/

虽然这不是您问题的完整答案,但我希望它有所帮助。