训练模型时,我明白
- 如果我在某个类别上提供了太多,它可能会变得过拟合,并将几乎所有的预测都视为过拟合的类别。这可能会导致过度拟合目录中的误报。
- 相反,如果我提供最少数量的照片以平均分布,那么出现稀有类别的概率现在是否等于常见类别?这可能会导致罕见类别中的误报,但可能会将我在 #1 中的误报变成真正的否定。
- 相反,如果我跳过稀有类别的训练,我会在其他类别中得到误报。
我们如何解释目标分类的自然分布(例如,常见病变的类型与罕见病变的类型)?
平均分配是最佳做法吗?如果是这样,如果我们的稀有类别如此之少,样本图像要小几个数量级,我们该怎么办?