我想了解如何使用二进制目标变量拆分不平衡数据集,其中 87% 的样本为负,13% 的样本为正。现在,我知道在进行任何类型的重新采样以避免信息泄漏之前,您应该始终将数据拆分为训练集和测试集,但是哪种策略可以提供更好的结果 - 随机train_test_split还是StratifiedShuffleSplit?普遍的看法是,在数据集不平衡的情况下,后者似乎优于前者。顺便说一句,如何StratifiedShuffleSplit工作?
另外,如何考虑交叉验证集以及如何处理它?
它还应该包含与在训练集上进行的采样相同数量的正样本和负样本吗?