机器算法验证 - 用于回归的随机森林是“真正的”回归吗？ - 吾爱随笔录

用于回归的随机森林是“真正的”回归吗？

机器算法验证回归随机森林大车

2022-02-02 09:43:28

随机森林用于回归。但是，据我了解，他们在每片叶子上分配了一个平均目标值。由于每棵树中只有有限的叶子，因此目标只能从我们的回归模型中获得特定的值。因此，它不仅是“离散”回归（如阶跃函数），也不像“连续”的线性回归？

我是否正确理解这一点？如果是，随机森林在回归中提供什么优势？

4个回答

这是正确的——随机森林离散连续变量，因为它们基于决策树，决策树通过递归二元分区起作用。但是有了足够的数据和足够的分割，一个有很多小步的阶梯函数可以逼近一个平滑函数。所以这应该不是问题。如果您真的想通过单个预测器捕获平滑响应，您可以计算任何特定变量的部分效应并为其拟合平滑函数（这不会影响模型本身，它将保留这个逐步特征）。

对于某些应用程序，随机森林比标准回归技术提供了相当多的优势。只提三个：

它们允许使用任意数量的预测器（比数据点更多的预测器是可能的）
它们可以在没有先验规范的情况下逼近复杂的非线性形状
他们可以在没有先验规范的情况下捕获预测之间的复杂交互。

至于是否是“真正的”回归，这在某种程度上是语义上的。毕竟，分段回归也是回归，但也不是平滑的。正如下面评论中所指出的，任何带有分类预测器的回归也是如此。

它是离散的，但是具有固定位数的浮点数形式的任何输出都是离散的。如果一棵树有 100 片叶子，那么它可以给出 100 个不同的数字。如果您有 100 棵不同的树，每棵树有 100 片叶子，那么您的随机森林理论上可以有 100^100 个不同的值，这可以提供 200（十进制）数字的精度，或约 600 位。当然，会有一些重叠，所以你实际上不会看到 100^100 个不同的值。越接近极端，分布就越离散；每棵树都会有一些最小叶子（一个输出小于或等于所有其他叶子的叶子），一旦你从每棵树上得到最小叶子，你就不能再低了。所以森林会有一些最低的整体价值，当您偏离该值时，您将开始时除了少数几棵树之外的所有树都处于其最小叶，从而在离散跳跃中与最小值增加的小偏差。但是，极端情况下的可靠性降低通常是回归的属性，而不仅仅是随机森林。

答案将取决于您对回归的定义，请参阅回归模型的定义和定界。但是通常的定义（或定义的一部分）是回归模型条件期望。回归树确实可以看作是条件期望的估计。

在叶节点中，您预测到达该叶的样本观察的平均值，算术平均值是期望的估计量。树中的分支模式代表条件作用。

可能值得补充的是，随机森林模型不能在训练数据范围之外进行推断，因为它们的最低值和最高值总是训练数据某个子集的平均值；这里有一个很好的图形示例。

其它你可能感兴趣的问题

上一篇为什么正则化会破坏线性回归中预测和残差的正交性？下一篇为什么将数据分成训练和测试集是不够的