假设我有两个类的不平衡数据集,并且我正在使用随机森林进行预测。随机森林将偏向多数类,这将导致我感兴趣的少数类预测的召回率低和精度高,这可能是不可取的。
一种方法是在 y 轴上绘制召回率、精度和 f1 分数,在轴上绘制阈值,并使用该图来选择适当的阈值。
另一种方法是对少数类使用过采样,比如 SMOTE。
我的问题是:过采样方法有什么优势?
到目前为止,我只看到缺点:
1)我们必须非常小心,我们的少数类在一个集群中,否则 SMOTE 会将点放在集群之间,这根本不是我们想要的。为了避免这种情况,我们应该为不同的集群创建不同的标签,这要复杂得多。
2) 我们正在创建额外的数据,这会增加运行时间和内存使用量。
3)即使我们做了过采样,我们仍然可能没有理想的召回率、阈值平衡,仍然需要调整阈值感觉是多余的。
我知道过采样是一种常用的技术,我错过了什么?