用于布尔特征的梯度提升与逻辑回归

数据挖掘 分类 逻辑回归 xgboost
2022-02-19 12:42:51

我有一个二进制分类任务,其中我的所有特征都是布尔值(0 或 1)。我一直在考虑两种可能的监督学习算法:

如果我了解它们是如何工作的,那么这两者似乎是等价的。它们实际上是等价的吗?是否有任何理由选择其中之一?


特别是,这就是为什么我认为它们是等价的。单个梯度提升决策树桩非常简单:相当于添加了一个常数ai如果特征i为 1,或添加常数bi如果特征i为 0。这可以等效地表示为(aibi)xi+bi, 在哪里 xi是特征的值i. 每个树桩都在一个特征上分支,因此贡献了一个形式的术语(aibi)xi+bi到总和。因此,梯度提升树桩的总和可以表示为

S=i=1n(aibi)xi+bi,

或等效地,以形式

S=c0+i=1ncixi.

这正是逻辑回归模型的最终 logit 的形式。这向我表明,使用交叉熵损失(相当于二元分类的逻辑损失)拟合梯度提升模型应该等同于拟合逻辑回归模型,至少在树桩数量的情况下梯度提升足够大。

1个回答

你是对的,模型在它们可以表达的函数方面是等价的,所以对于无限的训练数据和输入变量不以任何方式相互交互的函数,它们都可能渐近地接近潜在的联合概率分布. 如果您的功能不都是二进制的,那么这绝对不是真的。

梯度增强的树桩增加了额外的机械,听起来与您的任务无关。假设所有输入都是独立的,逻辑回归将有效地计算最大似然估计。我会选择逻辑回归。