我需要一些帮助来理解随机森林的概念。据我了解,当我制作决策树时,我会仔细选择每个节点以最大化信息增益并最小化熵,即每个节点都应该比其父节点产生更高的信息增益。
如果这是真的,那么决策树已经是最好的学习器了。为什么我需要将它与其他可能不太好的树结合起来然后进行投票?
如果我创建树以最大化信息增益,那么这已经是“最佳”模型。
如果我通过随机选择要拆分的节点创建 10 个决策树,我会理解对随机森林的需求。
我需要一些帮助来理解随机森林的概念。据我了解,当我制作决策树时,我会仔细选择每个节点以最大化信息增益并最小化熵,即每个节点都应该比其父节点产生更高的信息增益。
如果这是真的,那么决策树已经是最好的学习器了。为什么我需要将它与其他可能不太好的树结合起来然后进行投票?
如果我创建树以最大化信息增益,那么这已经是“最佳”模型。
如果我通过随机选择要拆分的节点创建 10 个决策树,我会理解对随机森林的需求。
简短的回答是方差。长答案是方差和泛化。决策树具有高方差:训练数据的微小变化可能会导致分裂发生方式的巨大变化,因此预测不是很稳定。在 RF 之前,人们非常关注修剪决策树等以获得更好的泛化。但是通过取许多独立同分布决策树(一个随机森林)的平均值,这种变化被平均化了,我们可以通过一个低 bais、低方差的分类器和出色的样本外泛化来获得我们的蛋糕并吃掉它。
这在统计学习要素中有更详细的解释。