我的测试集应该平衡还是不平衡?

机器算法验证 数据集 验证
2022-03-21 14:02:04

我有一个不平衡的数据集(90% 类 0 10% 类 1),我应该先将它分成训练集和测试集,然后平衡我的训练集(我的测试集仍然不平衡),还是我可以随机下采样多数类在我的数据集中然后分成训练和测试集(我的测试集将不包含训练集中使用的任何观察,因为我下采样了)?对于每种方法,我得到的结果非常不同。

1个回答

我不会说您建议的任何选项:使用您拥有的所有数据并尝试确保训练和测试集的分布匹配。这将使您对模型的性能进行最真实的评估。如果您的分类算法在处理不平衡数据时遇到问题,请使用其他算法。

简而言之:训练和测试分开,使两者保持不平衡。不要通过二次抽样丢弃数据。