在数据分类不平衡的情况下,我知道我们只是对训练集进行过采样(以防止数据从训练泄漏到测试子集),但是如果我的测试集中没有正数据点怎么办?测试集仍然高度偏斜,仅占我正面类的 1%。我正在使用 XGBoost、随机森林、逻辑回归和 KNN 进行分类任务。
此外,我尝试过 SMOTE、SMOTE-NC 和 Class_weight 对我的训练集进行过采样。为了增加从少数类中获得更多数据的机会,我将 10 倍交叉验证更改为 5 倍交叉验证(在开发模型时),没有任何改进!
PS:我的数据集中有超过 100K 的数据点。