我有一个不平衡的数据集,我希望预测类(0 或 1)。
样品x_train:
id date c1 c2 . . . . . . c20
101 13-02-2015 2 7 . . . . . . 14
101 14-02-2015 24 7 . . . . . . 8
.
.
.
105 13-02-2015 12 5 . . . . . . . 4
.
.
样本y_train
id class
101 1
105 1
107 0
.
.
.
现在我希望在数据集中对 0 类进行过度采样,但问题是每个id我只有一行,y_train而我有 50 行相同id。x_train