数据挖掘 - CART 算法（分类和回归树）问题 - 吾爱随笔录

CART 算法（分类和回归树）问题

数据挖掘机器学习分类决策树

2022-02-25 04:43:52

我们使用 CART 算法将给定深度的完整分类树模型. 这里，是树在训练数据上的训练误差，是中的叶子数，是给定参数。以下哪项有时是错误的？ $T_k$ $k$ $E(k, \alpha) = min_{T\subset Tk} Err(T) + \alpha |T|$ $Err(T)$ $T$ $|T|$ $T$ $\alpha$

$\color{blue}{(a) E(k+ 1,0) \geq E (k,0)}$

(b) $E(k+ 1,0) \leq E(k,0)$

(d) 以上三个陈述总是正确的

$\color{blue}{Explanation:}$ 通过提供深度和，Cart 算法将返回一个深度为和一个深度为。重要的是要注意和共享相同的前个级别。 $k$ $k + 1$ $k, T,$ $k + 1, \widetilde {T}$ $T$ $\widetilde {T}$ $k - 1$

现在开始剪枝，任何可能的剪枝都可以通过剪枝来实现，反之则不行。因此对于任何$ 见第 7 讲。 $T$ $\alpha \in R_+.$

所以这是从我刚刚参加的考试中得出的。我想知道是否有任何与图像中相同的实例，其中 CART 算法可以使用负 alpha 并因此鼓励更大的树？或者算法是否规定 alpha 必须始终为非负整数？

3个回答

进行额外的拆分将始终减小（直到达到纯叶），因此任何负将具有与相同。所以我们不妨采取。（但不要求是整数。） $Err$ $\alpha$ $T$ $\alpha=0$ $\alpha\geq0$ $\alpha$

呃，除非你实现的东西甚至可以分割一个纯节点，在这种情况下，一个负的将使树分裂甚至这些，直到每个叶子都由一个样本（及其副本）组成或达到最大深度. $\alpha$

或者算法是否规定 alpha 必须始终为非负整数？

据我所知，实际上是这样的：

在第 308 页的“统计学习的要素”(1) 中，作者写道：

调整参数 $\alpha \geq 0$ 控制树大小与其对数据的拟合优度之间的权衡。

此外，scikit-learn 文档说：

Minimal cost-complexity pruning 是一种用于修剪树以避免过度拟合的算法，在 [BRE] 的第 3 章中有描述。该算法参数化为 $\alpha \geq 0$ 称为复杂度参数。

两个来源都将“分类和回归树”（2）作为原始来源。

（一）《统计学习要素》；哈斯蒂等人；第二版；2008年

（2）“分类回归树”；布雷曼等人；1984年

𝛼 是用于正则化的参数，用于控制树过拟合，这是 CART 算法的固有问题。负数 𝛼 会导致更大的树，这可能会加剧过度拟合问题

其它你可能感兴趣的问题

上一篇无法学习 Word2Vec 模型的权重下一篇包含 NaN 的数组的余弦相似度