GBM 分类是否存在班级规模不平衡的问题?

机器算法验证 r 机器学习 不平衡类 助推
2022-02-10 18:20:50

我正在处理一个有监督的二元分类问题。我想使用 GBM 包将个人分类为未感染/感染。我未感染的人数是感染者的 15 倍。

我想知道 GBM 模型是否会在班级规模不平衡的情况下受到影响?我没有找到任何参考资料来回答这个问题。

我试图通过将权重 1 分配给未感染的个体和分配 15 的权重来调整权重,但我得到的结果很差。

2个回答

我认为您的数据与我过去工作过的Secom 数据相似,并且遇到了很多困难。以下是我尝试过的:

  • 不同的采样技术
  • 不同的分类器,如随机森林、ANN、GBM、Ensemble 方法等。

我还尝试了 1-Class SVM,与 adaboost、Random Forest 等其他方法相比,它的结果更好。你也可以试试。

我可以看到你在一年前就问过这个问题,所以如果你找到了最好的方法,那么请把它贴在这里,这样我就可以从中获得帮助,以获得更好的准确性。

根据我的经验,GBM 确实存在班级规模不平衡的问题。我使用 SMOTE 采样取得了很好的成功,它在对少数类进行过采样的同时创建了合成数据。您可以在DMwR包装中找到它。