我的数据集具有以下类分布
CLASS FREQUENCY
2 22696
4 2541
1 2093
5 1298
3 1116
0 960
6 14
我肯定想生成一个新样本,为此我将使用python imblearn,我有三个选项:
- 对少数类进行过采样
- 对多数类进行欠采样
- 选择一个中值类并应用对多数类的欠采样和对少数类的过采样以等于中值类。
稍后我将使用生成的数据集来训练三个估计器 RandomForest 分类器、SVC 和两者的集成。我会选择 f-1 得分最高的那个。什么是最好的选择,我应该使用哪种过采样/欠采样算法?