我有一个进行二元分类的模型。
我的数据集高度不平衡,所以我认为我应该在训练模型之前通过欠采样来平衡它。所以平衡数据集,然后随机拆分。这是正确的方法吗?还是我应该平衡测试和训练数据集?
我尝试只平衡整个数据集,我得到了 80% 的训练准确率,但在测试集上我有 30% 的准确率。这似乎不对?
但我也不认为我应该平衡测试集,因为它可能被视为偏见。
这样做的正确方法是什么?
谢谢
更新:我有 400 000 个样本,10% 是 1,90% 是 0。我无法获得更多数据。我试图保留整个数据集,但我不知道如何将其拆分为训练集和测试集。我在训练和测试数据集中需要相同的分布吗?