GBM 需要多少数据才能比二元分类的逻辑回归更可靠?

数据挖掘 逻辑回归 交叉验证 gbm
2022-03-12 04:48:52

将 GBM 与二元分类的逻辑回归进行比较时,各有利弊。我有兴趣了解数据集的长度(行数)与样本外拟合的可靠性之间的一般权衡。

显然,数据越多,样本外的预测就越可靠(其他条件相同)。数据行越多,GBM 对真实数据集的预测能力就越大。所以我想知道当您说数据太小而无法使用 GBM 时,是否有一个粗略的经验法则,最好使用逻辑回归。我知道逻辑回归在某些情况下可以更具预测性,但我的理解是 GBM 通常表现更好。

我对预测变量的数量远远少于可用变量的总数的情况特别感兴趣。例如,我们有 100 个变量,其中 10 个可能对目标变量具有高度预测性。

我知道训练/测试集和简历的所有好处。但这也不是一直有效。例如,您的同事刚刚运行了太多次训练/测试循环,在混合中添加了太多不可靠的变量以提高测试 AUC,而现在您的 GBM 模型非常好。太好了。

1个回答

根据我的经验,GBM 在小型数据集上的表现至少与 LR 一样好。GBM 相对于 LR 的主要优势出现在您拥有

  • 相关变量
  • 非线性
  • 互动

如果您想简化您的 GBM,您可以使用特征重要性来删除不重要的特征。您可能还想尝试 PCA 以查看是否可以减少功能数量。在此之后,您可以在结果特征上尝试 LR 模型以查看模型性能。

如果您担心您的模型对测试集过度拟合,您需要找到一个新的测试集!