我的数据有 13,000 行,7% 属于少数类。我使用 SMOTE(Synthetic Minority Oversampling TEchnique)进行类平衡,这样我将少数类的比例提高到 42%,行数变为 12,655。现在为了拟合逻辑回归,我需要划分样本以进行交叉验证和测试。我尝试了两种方法:
- 在 SMOTE 之后获得的样本上训练我的数据,并在
具有 13,000 行的原始样本上进行测试, - 将SMOTE后得到的样本分成train和test,只对这个数据集进行拟合和测试。
使用第一种方法,我的结果可能会出现偏差,那么我应该采用哪种方法,为什么?