随机森林用于回归。但是,据我了解,他们在每片叶子上分配了一个平均目标值。由于每棵树中只有有限的叶子,因此目标只能从我们的回归模型中获得特定的值。因此,它不仅是“离散”回归(如阶跃函数),也不像“连续”的线性回归?
我是否正确理解这一点?如果是,随机森林在回归中提供什么优势?
随机森林用于回归。但是,据我了解,他们在每片叶子上分配了一个平均目标值。由于每棵树中只有有限的叶子,因此目标只能从我们的回归模型中获得特定的值。因此,它不仅是“离散”回归(如阶跃函数),也不像“连续”的线性回归?
我是否正确理解这一点?如果是,随机森林在回归中提供什么优势?
这是正确的——随机森林离散连续变量,因为它们基于决策树,决策树通过递归二元分区起作用。但是有了足够的数据和足够的分割,一个有很多小步的阶梯函数可以逼近一个平滑函数。所以这应该不是问题。如果您真的想通过单个预测器捕获平滑响应,您可以计算任何特定变量的部分效应并为其拟合平滑函数(这不会影响模型本身,它将保留这个逐步特征)。
对于某些应用程序,随机森林比标准回归技术提供了相当多的优势。只提三个:
至于是否是“真正的”回归,这在某种程度上是语义上的。毕竟,分段回归也是回归,但也不是平滑的。正如下面评论中所指出的,任何带有分类预测器的回归也是如此。
它是离散的,但是具有固定位数的浮点数形式的任何输出都是离散的。如果一棵树有 100 片叶子,那么它可以给出 100 个不同的数字。如果您有 100 棵不同的树,每棵树有 100 片叶子,那么您的随机森林理论上可以有 100^100 个不同的值,这可以提供 200(十进制)数字的精度,或约 600 位。当然,会有一些重叠,所以你实际上不会看到 100^100 个不同的值。越接近极端,分布就越离散;每棵树都会有一些最小叶子(一个输出小于或等于所有其他叶子的叶子),一旦你从每棵树上得到最小叶子,你就不能再低了。所以森林会有一些最低的整体价值,当您偏离该值时,您将开始时除了少数几棵树之外的所有树都处于其最小叶,从而在离散跳跃中与最小值增加的小偏差。但是,极端情况下的可靠性降低通常是回归的属性,而不仅仅是随机森林。
答案将取决于您对回归的定义,请参阅回归模型的定义和定界。但是通常的定义(或定义的一部分)是回归模型条件期望。回归树确实可以看作是条件期望的估计。
在叶节点中,您预测到达该叶的样本观察的平均值,算术平均值是期望的估计量。树中的分支模式代表条件作用。
可能值得补充的是,随机森林模型不能在训练数据范围之外进行推断,因为它们的最低值和最高值总是训练数据某个子集的平均值;这里有一个很好的图形示例。