我知道训练集和测试集应该具有相同的分布,并且也理解我们不应该接触测试集(就过采样而言)。但我们知道,对训练集(特别是在多类分类中)进行过采样会完全改变训练集的分布。例如:
- 我的训练集在过采样前的分布是:90%, 5%, 3%, 2% [for classes A, B, C, and D]
- 我的训练集在过采样后的分布是:25%, 25%, 25%, 25% [for classes A, B, C, and D]
- 我使用分层交叉验证的训练集的分布是:90%、5%、3%、1% [对于 A、B、C 和 D 类] -->因为分层保持了原始数据的分布。
有人可以解释为什么我们在训练集和测试集都需要具有相同分布时使用过采样吗?