我有一个二进制分类任务,其中我的所有特征都是布尔值(0 或 1)。我一直在考虑两种可能的监督学习算法:
- 逻辑回归
- 使用决策树桩(例如 xgboost)和交叉熵损失的梯度提升
如果我了解它们是如何工作的,那么这两者似乎是等价的。它们实际上是等价的吗?是否有任何理由选择其中之一?
特别是,这就是为什么我认为它们是等价的。单个梯度提升决策树桩非常简单:相当于添加了一个常数如果特征为 1,或添加常数如果特征为 0。这可以等效地表示为, 在哪里 是特征的值. 每个树桩都在一个特征上分支,因此贡献了一个形式的术语到总和。因此,梯度提升树桩的总和可以表示为
或等效地,以形式
这正是逻辑回归模型的最终 logit 的形式。这向我表明,使用交叉熵损失(相当于二元分类的逻辑损失)拟合梯度提升模型应该等同于拟合逻辑回归模型,至少在树桩数量的情况下梯度提升足够大。