CART 算法(分类和回归树)问题

数据挖掘 机器学习 分类 决策树
2022-02-25 04:43:52
  1. 我们使用 CART 算法将给定深度的完整分类树模型. 这里,是树在训练数据上的训练误差,中的叶子数,是给定参数。以下哪项有时是错误的?TkkE(k,α)=minTTkErr(T)+α|T|Err(T)T|T|Tα

(a)E(k+1,0)E(k,0)

(b)E(k+1,0)E(k,0)

(c)E(k+α+1)E(k,α)

(d) 以上三个陈述总是正确的

Explanation:通过提供深度,Cart 算法将返回一个深度为和一个深度为重要的是要注意共享相同的前个级别。kk+1k,T,k+1,T~TT~k1

现在开始剪枝,任何可能的剪枝都可以通过剪枝来实现,反之则不行。因此对于任何$ 见第 7 讲。TT~E(k,α)E(k+1,α)αR+.

所以这是从我刚刚参加的考试中得出的。我想知道是否有任何与图像中相同的实例,其中 CART 算法可以使用负 alpha 并因此鼓励更大的树?或者算法是否规定 alpha 必须始终为非负整数?

3个回答

进行额外的拆分将始终减小(直到达到纯叶),因此任何负将具有与相同所以我们不妨采取(但不要求是整数。)ErrαTα=0α0α

呃,除非你实现的东西甚至可以分割一个纯节点,在这种情况下,一个负的将使树分裂甚至这些,直到每个叶子都由一个样本(及其副本)组成或达到最大深度.α

或者算法是否规定 alpha 必须始终为非负整数?

据我所知,实际上是这样的:

在第 308 页的“统计学习的要素”(1) 中,作者写道:

调整参数α0控制树大小与其对数据的拟合优度之间的权衡。

此外,scikit-learn 文档说:

Minimal cost-complexity pruning 是一种用于修剪树以避免过度拟合的算法,在 [BRE] 的第 3 章中有描述。该算法参数化为α0称为复杂度参数。

两个来源都将“分类和回归树”(2)作为原始来源。


(一)《统计学习要素》;哈斯蒂等人;第二版;2008年

(2)“分类回归树”;布雷曼等人;1984年

𝛼 是用于正则化的参数,用于控制树过拟合,这是 CART 算法的固有问题。负数 𝛼 会导致更大的树,这可能会加剧过度拟合问题