我正在研究图像数据集的多类分类问题。有 80% 图像的一类,其余 20% 分为其余 6 个剩余类。如果我必须应用图像增强技术,我必须保持每个类之间的图像数量比例是多少?
如何处理倾斜的不平衡图像数据集以与 CNN 一起使用?
数据挖掘
深度学习
神经网络
美国有线电视新闻网
卷积神经网络
2022-02-01 23:52:53
2个回答
我认为您首先需要考虑您最终将使用该模型的数据中的类别比例。拥有一个来自与真实数据相同的数据生成分布的测试集非常重要。现在,如果此数据中的比例与您编写的相同,那么为更常见的类提供更多示例实际上是一件好事。它允许您的模型为这些类提供更大的先验,并更多地关注这些类,特别是提取与这些类相关的更多特征。
如果您想减少这种偏差(例如,因为真实数据中的比例不同或不平衡太大以至于您的模型学会始终只分配最常见的类而忽略其他类),您可以使用重采样:定义什么样的班级比例适合您,并使用这些比例随机抽样示例。
与其直接使用数据集来训练模型,不如以 4:1 的比例对数据进行变异,或者按照您的想法消除原始数据集中的偏度。然后用它来训练模型你会得到更好的结果。
其它你可能感兴趣的问题