回归树 - 拆分和决策规则

数据挖掘 回归 决策树
2021-09-29 03:17:10

我知道回归树是通过拆分节点来构建的,这样标签/输出变量的 MSE 在两个结果节点中的每一个中都最小化。我对此有两个问题:

1.) 对最佳分割的搜索是否甚至取决于输入变量?MSE 可以通过穷举搜索两个子集来最小化,这两个子集最小化每个子集中标签的 MSE。为此,不需要有关输入变量的知识。如果是这种情况,如何设置即将发生的实例的决策规则(应该预测输出)?如何决定在什么时候拆分哪个特征以获得拆分为 2 个子集?

2.) 或者算法是否遍历所有可能的分割(在每个特征的每个值处分割一次),然后选择具有最小 MSE 的那个?这样决策规则就很清楚了。

提前致谢

1个回答

简答

1.是的,拆分需要特征变量。没有创建用于减少 mse 的最佳 2 个子集。2.是的

长答案决策树是贪心算法,它选择一个特征并在每个节点处分割,并使用该特征并切割来分割数据。

因此,正如您在第 2 点中提到的,树开始构建第一个节点中的所有 y 值,并迭代每个特征的所有组合,并选择最佳特征和值拆分为进一步拆分的 2 组。

终止条件将是叶节点中的观察数和/或从拆分中减少 mse 的阈值。