我研究过Random Forest和RainForest论文,但它们有点令人困惑!总之,我了解这些算法的以下步骤。你能帮我看看我是对还是错?
我感谢您的帮助。
首先在随机森林中:
- 定义树的数量
- 通过引导分区数据
- 在每个分区构造树上(在每个节点中选择特征的子样本)
- 标记叶节点
- 用于对所有树的新实例投票进行分类。
在雨林中:
- 分区数据集
- 构建分区的 AVC 集
- 通过计算 AVC 集上的纯度标准(如 gini-index)在分区上构建树
我研究过Random Forest和RainForest论文,但它们有点令人困惑!总之,我了解这些算法的以下步骤。你能帮我看看我是对还是错?
我感谢您的帮助。
首先在随机森林中:
在雨林中:
随机森林是一种学习算法。它是一种使用决策树作为基础学习器的集成学习算法。您正确编写了它的步骤。
雨林不是一种学习算法。它是一种在数据集太大以至于无法容纳内存时构建决策树(如何进行拆分)的算法。在雨林中,做出分裂决定不需要整个数据集。只需要一些汇总信息(属性的 AVC 集或 AVC 组,如果您有更多内存)是必需的。
如果你的数据集很大,而内存很小,你可以使用雨林来构建几个不同的决策树。然后使用这些树作为基础学习器的随机森林算法。