用于回归的随机森林是“真正的”回归吗?

机器算法验证 回归 随机森林 大车
2022-02-02 09:43:28

随机森林用于回归。但是,据我了解,他们在每片叶子上分配了一个平均目标值。由于每棵树中只有有限的叶子,因此目标只能从我们的回归模型中获得特定的值。因此,它不仅是“离散”回归(如阶跃函数),也不像“连续”的线性回归?

我是否正确理解这一点?如果是,随机森林在回归中提供什么优势?

4个回答

这是正确的——随机森林离散连续变量,因为它们基于决策树,决策树通过递归二元分区起作用。但是有了足够的数据和足够的分割,一个有很多小步的阶梯函数可以逼近一个平滑函数。所以这应该不是问题。如果您真的想通过单个预测器捕获平滑响应,您可以计算任何特定变量的部分效应并为其拟合平滑函数(这不会影响模型本身,它将保留这个逐步特征)。

对于某些应用程序,随机森林比标准回归技术提供了相当多的优势。只提三个:

  1. 它们允许使用任意数量的预测器(比数据点更多的预测器是可能的)
  2. 它们可以在没有先验规范的情况下逼近复杂的非线性形状
  3. 他们可以在没有先验规范的情况下捕获预测之间的复杂交互。

至于是否是“真正的”回归,这在某种程度上是语义上的。毕竟,分段回归也是回归,但也不是平滑的。正如下面评论中所指出的,任何带有分类预测器的回归也是如此。

它是离散的,但是具有固定位数的浮点数形式的任何输出都是离散的。如果一棵树有 100 片叶子,那么它可以给出 100 个不同的数字。如果您有 100 棵不同的树,每棵树有 100 片叶子,那么您的随机森林理论上可以有 100^100 个不同的值,这可以提供 200(十进制)数字的精度,或约 600 位。当然,会有一些重叠,所以你实际上不会看到 100^100 个不同的值。越接近极端,分布就越离散;每棵树都会有一些最小叶子(一个输出小于或等于所有其他叶子的叶子),一旦你从每棵树上得到最小叶子,你就不能再低了。所以森林会有一些最低的整体价值,当您偏离该值时,您将开始时除了少数几棵树之外的所有树都处于其最小叶,从而在离散跳跃中与最小值增加的小偏差。但是,极端情况下的可靠性降低通常是回归的属性,而不仅仅是随机森林。

答案将取决于您对回归的定义,请参阅回归模型的定义和定界但是通常的定义(或定义的一部分)是回归模型条件期望回归树确实可以看作是条件期望的估计。

在叶节点中,您预测到达该叶的样本观察的平均值,算术平均值是期望的估计量。树中的分支模式代表条件作用。

可能值得补充的是,随机森林模型不能在训练数据范围之外进行推断,因为它们的最低值和最高值总是训练数据某个子集的平均值;这里有一个很好的图形示例