数据挖掘 - 用于布尔特征的梯度提升与逻辑回归 - 吾爱随笔录

我有一个二进制分类任务，其中我的所有特征都是布尔值（0 或 1）。我一直在考虑两种可能的监督学习算法：

逻辑回归
使用决策树桩（例如 xgboost）和交叉熵损失的梯度提升

如果我了解它们是如何工作的，那么这两者似乎是等价的。它们实际上是等价的吗？是否有任何理由选择其中之一？

特别是，这就是为什么我认为它们是等价的。单个梯度提升决策树桩非常简单：相当于添加了一个常数 $a_i$ 如果特征 $i$ 为 1，或添加常数 $b_i$ 如果特征 $i$ 为 0。这可以等效地表示为 $(a_i-b_i)x_i + b_i$ ，在哪里 $x_i$ 是特征的值 $i$ . 每个树桩都在一个特征上分支，因此贡献了一个形式的术语 $(a_i-b_i)x_i + b_i$ 到总和。因此，梯度提升树桩的总和可以表示为

S = \sum_{i = 1}^{n} (a_{i} - b_{i}) x_{i} + b_{i},

$S = \sum_{i=1}^n (a_i-b_i) x_i + b_i,$

或等效地，以形式

S = c_{0} + \sum_{i = 1}^{n} c_{i} x_{i} .

$S = c_0 + \sum_{i=1}^n c_i x_i.$

这正是逻辑回归模型的最终 logit 的形式。这向我表明，使用交叉熵损失（相当于二元分类的逻辑损失）拟合梯度提升模型应该等同于拟合逻辑回归模型，至少在树桩数量的情况下梯度提升足够大。