机器算法验证 - 如果决策树的熵已经很低，我们还需要随机森林吗 - 吾爱随笔录 - 问答

如果决策树的熵已经很低，我们还需要随机森林吗

机器算法验证随机森林熵

2022-04-01 00:59:56

我需要一些帮助来理解随机森林的概念。据我了解，当我制作决策树时，我会仔细选择每个节点以最大化信息增益并最小化熵，即每个节点都应该比其父节点产生更高的信息增益。

如果这是真的，那么决策树已经是最好的学习器了。为什么我需要将它与其他可能不太好的树结合起来然后进行投票？

如果我创建树以最大化信息增益，那么这已经是“最佳”模型。

如果我通过随机选择要拆分的节点创建 10 个决策树，我会理解对随机森林的需求。

1个回答

简短的回答是方差。长答案是方差和泛化。决策树具有高方差：训练数据的微小变化可能会导致分裂发生方式的巨大变化，因此预测不是很稳定。在 RF 之前，人们非常关注修剪决策树等以获得更好的泛化。但是通过取许多独立同分布决策树（一个随机森林）的平均值，这种变化被平均化了，我们可以通过一个低 bais、低方差的分类器和出色的样本外泛化来获得我们的蛋糕并吃掉它。

这在统计学习要素中有更详细的解释。

其它你可能感兴趣的问题

上一篇发布协变量矩阵的伦理下一篇引导方法 - 缺点