在训练图像分类器时,最佳做法是平均分配每个类别中的图像数量吗?

数据挖掘 机器学习 神经网络 深度学习 图像分类 阶级失衡
2022-03-14 05:44:09

训练模型时,我明白

  1. 如果我在某个类别上提供了太多,它可能会变得过拟合,并将几乎所有的预测都视为过拟合的类别。这可能会导致过度拟合目录中的误报。
  2. 相反,如果我提供最少数量的照片以平均分布,那么出现稀有类别的概率现在是否等于常见类别?这可能会导致罕见类别中的误报,但可能会将我在 #1 中的误报变成真正的否定。
  3. 相反,如果我跳过稀有类别的训练,我会在其他类别中得到误报。

我们如何解释目标分类的自然分布(例如,常见病变的类型与罕见病变的类型)?

平均分配是最佳做法吗?如果是这样,如果我们的稀有类别如此之少,样本图像要小几个数量级,我们该怎么办?

2个回答

根据您使用的方法,此答案可能会有所不同。

首先,您在训练、验证和测试拆分之间拆分数据。忘记测试集。将验证数据保持在其自然分布的类中。

对于训练集数据,您有多种选择 -

  • 使用下采样或上采样技术平衡类
  • 保持不平衡的类,但将权重附加到每个类中的错误(参见此处的 som 参考: https ://stats.stackexchange.com/questions/207977/balancing-classes-for-neural-network-training )

关于使每个类别的样本数量相等,根本不可取。每个类的分布应该是真实的。造成这种情况的原因有很多,但重点是您的训练和验证数据的分布应该像您的测试数据的分布一样。看看这里