我标记了由 10000 个正例和 50000 个负例组成的数据,总共给出了 60000 个示例。显然这个数据是不平衡的。
现在让我们说我想创建我的验证集,并且我想使用 10% 的数据来执行此操作。我的问题如下:
我应该确保我的验证集也是不平衡的(作为对训练集真实分布的认可),还是应该确保我的验证集是平衡的?因此,例如,我的验证集是否应该来自:
- 10% 正面示例 + 10% 负面示例,给出 1000+ 和 5000- 示例。(这个验证集反映了原始数据的不平衡)。
- 或者验证集应该由 10% 的正例、1000+ 和 (10/5 = 2%) 的负例组成,同时给出 1000 个示例?
(测试集的相同问题)。
似乎有很多方法可以用不平衡的数据进行训练,但是我在哪里找不到关于我的验证集是否也应该反映原始不平衡的最佳实践。最后,我不做交叉验证,我将使用单个验证集和神经网络。
谢谢!