回归树可以连续预测吗?

数据挖掘 预测建模 回归 决策树
2021-10-11 06:00:59

假设我有一个平滑的功能f(x,y)=x2+y2. 我有一个训练集D{((x,y),f(x,y))|(x,y)R2}当然,我不知道f虽然我可以评价f我想去哪里。

回归树是否能够找到函数的平滑模型(因此输入的微小变化只会给输出带来微小的变化)?

从我在Lecture 10: Regression Trees中读到的内容,在我看来,回归树基本上将函数值放入 bin 中:

对于经典回归树,每个单元格中的模型只是 Y 的常数估计。

当他们写“经典”时,我猜有一个变体,细胞会做一些更有趣的事情?

3个回答

回归树,尤其是梯度提升(本质上是许多树),往往在连续预测方面做得很好,通常优于线性回归等真正连续的模型。当存在可变交互并且当您拥有足够大的数据集(超过 10,000 条记录)以降低过度拟合的可能性时,尤其如此。如果您的主要目标只是预测能力,那么模型是 100% 连续还是伪连续应该无关紧要。如果使您的回归树更加连续会增强样本预测能力,那么您可以简单地增加树深度或添加更多树。

在经典回归树中,叶子中有一个值,但在叶子中可以有一个线性回归模型,请检查这张票。

您还可以使用树的集合(随机森林或梯度提升机)来获得连续的输出值。

如果您稍微扩展问题以包括一般梯度提升技术(与提升回归树的特殊情况相反),那么答案是肯定的。梯度提升已成功地用作变量选择的替代方法。一个很好的例子是mboost 包关键是用于提升的基学习器类由连续模型组成。教程描述了典型的基础学习器类,如下所示:

常用的基础学习模型可以分为三个不同的类别:线性模型、平滑模型和决策树。还有许多其他模型,例如马尔可夫随机场 (Dietterich et al., 2004) 或小波 (Viola and Jones, 2001),但它们的应用出现在相对具体的实际任务中。

请注意,它特别提到了小波。树和小波之前已经成功地组合成基于树的小波。