梯度提升是否适合事件率低(如 1%)的数据?

机器算法验证 助推 不平衡类 罕见事件 坡度
2022-02-14 18:06:58

我正在尝试使用 Enterprise miner 对事件率约为 1% 的数据集进行梯度提升,但它无法产生任何输出。我的问题是,既然它是一种基于决策树的方法,那么在如此低的事件中使用梯度提升是否正确?

1个回答

(对此给出简短的回答:)

在处理不平衡的数据集时,可以使用梯度提升机算法。在处理严重不平衡的数据集时,质疑所用指标的适用性更为重要。我们应该避免使用基于任意阈值的指标,例如准确度或召回率,并选择可以提供更准确图片的指标,例如 AUCPR 或 Brier 评分 - 请参阅优秀的 CV.SE 线程:为什么准确性不是评估分类模型的最佳方法?更多)。同样,我们可以通过分配不同的错误分类成本来潜在地采用成本敏感的方法(例如,参见 Masnadi-Shirazi & Vasconcelos (2011) Cost-Sensitive Boosting对于已知提升算法的一般视图和建议的更改,或者对于具有更简单方法的特别有趣的应用程序,请查看 XGBoost 算法的希格斯玻色子挑战报告;Chen & He (2015) Higgs Boson Discovery with Boosted Trees提供了更多细节)。

还值得注意的是,如果我们使用概率分类器(如 GBM),我们可以/应该积极研究校准返回的概率(例如,参见 Zadrozny 和 Elkan(2002)将分类器分数转换为准确的多类概率估计或 Kull 等人。 2017)Beta 校准:对二元分类器的逻辑校准进行了有充分根据且易于实施的改进),以潜在地提高我们学习器的性能。特别是在处理不平衡数据时,充分捕捉趋势变化可能比简单地标记数据提供更多信息。就此而言,有些人可能会争辩说,成本敏感的方法最终并没有那么有益(例如,参见 Nikolaou 等人(2016)成本敏感的提升算法:我们真的需要它们吗?)。不过,重申一下最初的观点,提升算法对于不平衡数据本身并不是坏事,在某些情况下,它们可以提供非常有竞争力的选择。