在深度学习之前,我处理过机器学习问题,其中数据有很大的类不平衡(30:1 或更差的比率)。在那个时候,所有的分类器都在挣扎,即使在对代表类进行了欠采样并创建了代表不足的类的合成示例之后——除了随机森林,它比其他分类器更健壮,但仍然不是很好。
在深度学习(CNN、ResNet、transformers 等)方面,类分布的指导方针是什么?每个班级的代表必须是 1:1 吗?或者,只要它低于 2:1 之类的比例,它就“足够好”了?或者,只要我们有足够的训练数据,深度学习就完全不受类不平衡的影响吗?
此外,作为一般准则,每个类是否应该有一定的最小训练样本数量(可能是网络权重数量的倍数)?