我正在为不平衡的数据(例如,90% 的 Pos 类与 10% 的 Neg 类)建立一个二元分类模型。
我已经平衡了我的训练数据集以反映 50/50 的分类,而我的保留(训练数据集)保持与原始数据分布相似(即 90% 对 10%)。我的问题是关于 CV 超参数过程中使用的验证数据。在每次迭代折叠应:
1)训练和测试的折叠都是平衡的
或者
2)训练折叠应该保持平衡,而验证折叠应该不平衡,以反映原始数据分布和保留数据集。
我目前正在使用第一个选项来调整我的模型;但是,鉴于保留数据集和验证数据集具有不同的分布,这种方法是否有效?