我有一个 3 类图像分类问题。这些类是高度不平衡的(大约 98% 的图像属于一个类)。为了抵消这种不平衡的数据,我使用类概率的倒数(1/(类比例))来加权损失。这意味着少数群体的损失会成倍增加。这确实有助于抵消阶级不平衡。
然而,对于这个加权损失,我使用了训练数据集中的比例。在验证数据集中,分布有些不同(验证集中为 96.66%、2.59%、0.75%,而训练集中为 98.28%、0.98%、0.73%)。这意味着如果我使用基于训练集的权重,主要是错误分类的 1 类图像会受到比根据验证集中的分布应有的惩罚要多得多。
这种分布差异的原因是我不能对我的图像进行随机分割,因为它们是由大约 10 个相机拍摄的,它们都在拍摄相同的静态风景(高速公路)。这意味着我必须保留大约 2/3 个摄像头的所有图像作为验证,并使用其他摄像头进行训练,否则模型将过于乐观,因为验证图像与训练图像来自同一个摄像头。
这使得验证数据无法解释加权损失。有没有办法抵消这种情况?例如,为训练/验证集(基于它们各自的分布)提供单独的权重会有所帮助吗?