数据挖掘 - 对分类树中的“真实分数”与“决策值”感到困惑 - 吾爱随笔录 - 问答

对分类树中的“真实分数”与“决策值”感到困惑

数据挖掘机器学习决策树 xgboost lightgbm

2022-02-25 11:13:36

我正在阅读XGBoost 指南，并且对它在决策树和分类/回归树的评分系统之间的区别感到困惑。我挂断的段落是：

CART [分类和回归树] 与决策树有点不同，决策树的叶子只包含决策值。在 CART 中，真实分数与每个叶子相关联，这为我们提供了超越分类的更丰富的解释。

我完全不确定这意味着什么。我对回归决策树的理解是，每个叶子都有一个值，它是分配给该叶子的所有训练示例的平均标签（在遵循树的结构之后）。在多树模型中，当预测一个新示例时，我们通过每棵树导航它，然后平均它最终所在的叶子的值；这个平均值是最终的预测。

我的问题是：

a) 我对决策树的理解是否正确？

b) XGBoost 和 LightGBM 使用的 CART 树有什么不同？从引用段落下方的图中，似乎每片叶子都有一个“预测分数”，它在整个树中求和，然后以某种方式处理成最终的回归预测？

2个回答

我不确定这些术语是否通用，但 xgboost 文档似乎正在考虑使用“决策树”来明确表示所做的预测是硬类预测（叶子中训练数据中类的模式），而不是概率预测，因此不适用于回归任务。

另一方面，回归树通常平均每个叶子中的目标值，这也导致了分类树的有用“软”分类器版本。随机森林和 AdaBoosting 可以使用硬投票或软投票，但梯度提升要求每个学习器都是回归器（拟合伪残差），因此 XGBoost 和 LightGBM 都使用这些。

许多所谓的“分类”模型实际上是预测概率，然后有一些决策函数将概率映射到一个类别。常见的决策函数是选择概率最高的类别，但您可以选择任何阈值。您甚至可以选择不使用阈值并直接评估概率输出。这给出了所提到的更丰富的解释，因为它允许作为两个示例，风险估计和校准。

Frank Harrell（范德比尔特统计学教授）有两篇关于此的博文值得一读。

分类精度和其他不连续不正确的评分规则造成的损坏

分类与预测

相关的 Stack，Cross Validated (statistics)，往往比数据科学更多地谈论这个话题。您可能有兴趣在那里搜索“正确的评分规则”。我有几个关于这个主题的帖子。

其它你可能感兴趣的问题

上一篇分析句子时的平均类型下一篇正常的 Glorot 初始化从何而来？