随机森林与雨林

数据挖掘 分类 随机森林 决策树
2022-02-26 02:56:09

我研究过Random ForestRainForest论文,但它们有点令人困惑!总之,我了解这些算法的以下步骤。你能帮我看看我是对还是错?

我感谢您的帮助。

首先在随机森林中:

  1. 定义树的数量
  2. 通过引导分区数据
  3. 在每个分区构造树上(在每个节点中选择特征的子样本)
  4. 标记叶节点
  5. 用于对所有树的新实例投票进行分类。

在雨林中:

  1. 分区数据集
  2. 构建分区的 AVC 集
  3. 通过计算 AVC 集上的纯度标准(如 gini-index)在分区上构建树
1个回答

随机森林是一种学习算法。它是一种使用决策树作为基础学习器的集成学习算法。您正确编写了它的步骤。

雨林不是一种学习算法。它是一种在数据集太大以至于无法容纳内存时构建决策树(如何进行拆分)的算法。在雨林中,做出分裂决定不需要整个数据集。只需要一些汇总信息(属性的 AVC 集或 AVC 组,如果您有更多内存)是必需的。

如果你的数据集很大,而内存很小,你可以使用雨林来构建几个不同的决策树。然后使用这些树作为基础学习器的随机森林算法。