对分类树中的“真实分数”与“决策值”感到困惑

数据挖掘 机器学习 决策树 xgboost lightgbm
2022-02-25 11:13:36

我正在阅读XGBoost 指南,并且对它在决策树和分类/回归树的评分系统之间的区别感到困惑。我挂断的段落是:

CART [分类和回归树] 与决策树有点不同,决策树的叶子只包含决策值。在 CART 中,真实分数与每个叶子相关联,这为我们提供了超越分类的更丰富的解释。

我完全不确定这意味着什么。我对回归决策树的理解是,每个叶子都有一个值,它是分配给该叶子的所有训练示例的平均标签(在遵循树的结构之后)。在多树模型中,当预测一个新示例时,我们通过每棵树导航它,然后平均它最终所在的叶子的值;这个平均值是最终的预测。

我的问题是:

a) 我对决策树的理解是否正确?

b) XGBoost 和 LightGBM 使用的 CART 树有什么不同?从引用段落下方的图中,似乎每片叶子都有一个“预测分数”,它在整个树中求和,然后以某种方式处理成最终的回归预测?

2个回答

我不确定这些术语是否通用,但 xgboost 文档似乎正在考虑使用“决策树”来明确表示所做的预测是硬类预测(叶子中训练数据中类的模式),而不是概率预测,因此不适用于回归任务。

另一方面,回归树通常平均每个叶子中的目标值,这也导致了分类树的有用“软”分类器版本。随机森林和 AdaBoosting 可以使用硬投票或软投票,但梯度提升要求每个学习器都是回归器(拟合伪残差),因此 XGBoost 和 LightGBM 都使用这些。

许多所谓的“分类”模型实际上是预测概率,然后有一些决策函数将概率映射到一个类别。常见的决策函数是选择概率最高的类别,但您可以选择任何阈值。您甚至可以选择不使用阈值并直接评估概率输出。这给出了所提到的更丰富的解释,因为它允许作为两个示例,风险估计和校准。

Frank Harrell(范德比尔特统计学教授)有两篇关于此的博文值得一读。

分类精度和其他不连续不正确的评分规则造成的损坏

分类与预测

相关的 Stack,Cross Validated (statistics),往往比数据科学更多地谈论这个话题。您可能有兴趣在那里搜索“正确的评分规则”。我有几个关于这个主题的帖子。