将 GBM 与二元分类的逻辑回归进行比较时,各有利弊。我有兴趣了解数据集的长度(行数)与样本外拟合的可靠性之间的一般权衡。
显然,数据越多,样本外的预测就越可靠(其他条件相同)。数据行越多,GBM 对真实数据集的预测能力就越大。所以我想知道当您说数据太小而无法使用 GBM 时,是否有一个粗略的经验法则,最好使用逻辑回归。我知道逻辑回归在某些情况下可以更具预测性,但我的理解是 GBM 通常表现更好。
我对预测变量的数量远远少于可用变量的总数的情况特别感兴趣。例如,我们有 100 个变量,其中 10 个可能对目标变量具有高度预测性。
我知道训练/测试集和简历的所有好处。但这也不是一直有效。例如,您的同事刚刚运行了太多次训练/测试循环,在混合中添加了太多不可靠的变量以提高测试 AUC,而现在您的 GBM 模型非常好。太好了。