当测试集仍然不平衡时,“过采样”的目的是什么?

数据挖掘 多类分类 阶级失衡
2022-02-28 18:40:02

我知道训练集和测试集应该具有相同的分布,并且也理解我们不应该接触测试集(就过采样而言)。但我们知道,对训练集(特别是在多类分类中)进行过采样会完全改变训练集的分布。例如:

  • 我的训练集在过采样前的分布:90%, 5%, 3%, 2% [for classes A, B, C, and D]
  • 我的训练集过采样后的分布是:25%, 25%, 25%, 25% [for classes A, B, C, and D]
  • 我使用分层交叉验证的训练集的分布是:90%、5%、3%、1% [对于 A、B、C 和 D 类] -->因为分层保持了原始数据的分布。

有人可以解释为什么我们在训练集和测试集都需要具有相同分布时使用过采样吗?

1个回答

有人可以解释为什么我们在训练集和测试集都需要具有相同分布时使用过采样吗?

我们使用它是因为训练集和测试集不必具有相同的标签分布。重要的是测试集来自与您的“真实”数据相同的分布,以便它提供可靠的测量。只要您的测试集上的结果良好,就可以对训练集进行拆分后采样。