我正在处理严重不平衡的数据。在文献中,有几种方法用于使用重新采样(过采样或欠采样)来重新平衡数据。两个好的方法是:
我已经实现了 ADASYN,因为它具有自适应特性并且易于扩展到多类问题。
我的问题是如何测试 ADASYN(或任何其他过采样方法)产生的过采样数据。上述两篇论文尚不清楚他们是如何进行实验的。有两种情况:
1- 对整个数据集进行过采样,然后将其拆分为训练集和测试集(或交叉验证)。
2-拆分原始数据集后,仅对训练集进行过采样,并在原始数据测试集上进行测试(可以进行交叉验证)。
在第一种情况下,结果比没有过采样要好得多,但我担心是否存在过拟合。而在第二种情况下,结果比没有过采样的情况稍好,但比第一种情况差得多。但是第二种情况的问题是,如果所有少数类样本都进入测试集,那么过采样不会带来任何好处。
我不确定是否有任何其他设置来测试这些数据。