我的演讲幻灯片告诉我,如果我们不修剪回归树,那么树可能会过度拟合。所以,我想知道为什么会发生这种情况?那是因为如果树变得太大,我们最终会在树的每个叶节点上得到非常少的实例,因此每个叶节点上的估计平均值将不准确?
为什么大型决策树可能会过拟合
数据挖掘
决策树
过拟合
2022-02-19 14:15:08
2个回答
过度拟合意味着模型在数据集上给出了很好的拟合(无论您使用何种度量来评估拟合),但这不是一般情况(即当新数据进入另一个数据集或在另一个数据集上时,错误会爆炸。或者说否则,模型方差很高)。
在树的情况下,仅当该特征确实在此级别上带来信息时,才应基于一个特征将节点添加到叶中。不过,该功能可能是随机的,这会大大降低拟合度。
作为分类任务的简单示例;如果我们想根据一些特征来分类苹果和橘子,包括其中一个特征是一个值,0或1是随机选择的。如果碰巧在我们的数据集中值 1 在 80% 的时间对应于苹果,那么我们会很想添加一个节点说“如果值是 1,那么苹果”,但你可以看到这绝对不是一个一般性:树根本不适合另一个数据集。因此不应添加此节点,即应修剪树。
如果树可以随心所欲地自由生长,它可以学习特定训练观察的规则,而不是学习未见数据点的通用规则,因为决策树的目标是对训练点进行分类,而不是预测未见数据。这就是过度拟合的意思,即在训练集中学得很好,但对新数据的预测却很糟糕