我正在处理一个有监督的二元分类问题。我想使用 GBM 包将个人分类为未感染/感染。我未感染的人数是感染者的 15 倍。
我想知道 GBM 模型是否会在班级规模不平衡的情况下受到影响?我没有找到任何参考资料来回答这个问题。
我试图通过将权重 1 分配给未感染的个体和分配 15 的权重来调整权重,但我得到的结果很差。
我正在处理一个有监督的二元分类问题。我想使用 GBM 包将个人分类为未感染/感染。我未感染的人数是感染者的 15 倍。
我想知道 GBM 模型是否会在班级规模不平衡的情况下受到影响?我没有找到任何参考资料来回答这个问题。
我试图通过将权重 1 分配给未感染的个体和分配 15 的权重来调整权重,但我得到的结果很差。
我认为您的数据与我过去工作过的Secom 数据相似,并且遇到了很多困难。以下是我尝试过的:
我还尝试了 1-Class SVM,与 adaboost、Random Forest 等其他方法相比,它的结果更好。你也可以试试。
我可以看到你在一年前就问过这个问题,所以如果你找到了最好的方法,那么请把它贴在这里,这样我就可以从中获得帮助,以获得更好的准确性。
根据我的经验,GBM 确实存在班级规模不平衡的问题。我使用 SMOTE 采样取得了很好的成功,它在对少数类进行过采样的同时创建了合成数据。您可以在DMwR
包装中找到它。